Tag: statistics

  • 제안을 위한 분석

    일하다보면 종종 데이터 탐색과 그 탐색의 결과로 제안을 하는 일을 구분하지 못하는 경우를 본다. 문서를 쓰면서 어떤 분석을 했는지 raw data를 하나하나 나열하고 그 과정의 어려움을 설명하고, 남아있는 기술적 문제를 설명하려 하던가. 이런 설명이 필요한 컨텍스트와 리더쉽 또는 product manager 에게 자신의 분석을 보이는 설명은 서로 달라야한다. 내 분석을 통해 설득하고 제안하는 것이 주가 되어야한다.…

  • Imbalanced data를 다루는 라이브러리

    Imbalanced data 를 다루는데 유용한 Imbalanced learn이라는 라이브러리를 하나 찾았습니다. Scikit learn 도 그렇듯이 이런 라이브러리의 장점은 메뉴얼만 보고 있어도 어떤 알고리즘들이 존재하는지를 쉽게 알 수 있단 점입니다. 특히 undersampling technique 방법이라고는 random sampling 만 생각하고 있다가 다양한 Prototype selection 알고리즘을 접하게 되었는데 이게 참 인상적이네요. 예를들어 Near Miss 1, 2, 3 알고리즘이 인상깊었습니다. 단순히…

  • Decision tree가 가진 설명력의 한계

    Decision tree는 흔히 설명력이 좋다고 한다. 트리를 보면 어떻게 분류가 되는지 볼 수 있기에 그렇다. 하지만 실제로 모델을 적용하는데는 한계가 발생하는 경우가 있다. 예를들어 X[i]=0 이라면 logistic regression의 경우 Coef[i] * X[i] = 0 이 되어 X[i]가 예측에 영향을 주지 않는다. 하지만 Decision tree는 X[i]=0 인 경우에 어떤 결론을 내릴 수 있다. 예를들어 영어 문장내…

  • Interpreting Random forest

    http://blog.datadive.net/interpreting-random-forests/ This is how eli5 explains a tree.

  • ZCA Whitening

    Stack exchange 글인데 정말 훌륭한 설명입니다. 이렇게 핵심만 전달하는 능력이 있다니.. What is the difference between ZCA whitening and PCA whitening? 같은 사람의 PCA를 사용한 whitening 방법에 대한 글도 훌륭하네요.

  • Learning to execute

    Learning to execute. 계산을 RNN으로 해보자. https://arxiv.org/abs/1410.4615 덧셈 문자열 구현을 RNN으로 만든 Keras 구현 예시. 이 구현에서는 입력을 뒤짚는 부분도 흥미로움. 예를들어 12+34는 43+21로 만드는데, 실제 덧셈은 일의 자리 다음 십의 자리를 계산한다는 것을 생각하면 충분히 이해가 됨. 실행해보면 성능도 매우 우수함.

  • Curriculum Learning

    http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.149.4701 Humans and animals learn much better when the examples are not randomly presented but organized in a meaningful order which illustrates gradually more concepts, and gradually more complex ones. Here, we formalize such training strategies in the context of machine learning, and call them “curriculum learning” … significant improvements in generalization can be achieved.…

  • Scheduled Sampling

    RNN에서 훈련시 실제 시퀀스 대신 모델이 예측하는 값을 입력으로 준다. 예측이 잘못된 뒤 완전히 엉뚱한 시퀀스를 답으로 내놓는 문제를 해결. 또한 실제 예측시와 동일하게 훈련을 시킨다는데 의미가 있음. We propose a curriculum learning strategy to gently change the training process from a fully guided scheme using the true previous token, towards a less guided scheme…

  • Skew 된 데이터에서의 기하 평균

    ​랜덤 변수 X가 로그 노말을 따르면 X의 기하평균이 중앙값과 같다. 또한 기하 평균은 산술 평균보다 같거나 작다. 따라서 outlier가 있는 데이터에서 기하 평균이 유용하게 쓰인다. 예를들어 웹 사이트 로딩 시간의 latency 를 로그 노말로 본다면 latency의 기하 평균을 구할 경우 그 값은 중앙값이 된다.중앙값은 outlier의 영향을 덜 받으므로 보다 더 대표적인 latency를 구할 수 있는…

  • Changing numpy array column or shape

    Changing the order of columns. This is useful when you want to reorder image data, e.g., rgb -> bgr. Changing the order of axis. For image, this is useful if you want to change the channel axis to the arbitrary position. As an example, matplotlib.pyplt.plot() accepts images in the form of (x, y, channel). Your…