-
일어나지 않은 사건의 확률 추정
http://www.johndcook.com/blog/2010/03/30/statistical-rule-of-three/ N/3. 귀무가설이 확률 = p 라고 할때 관찰된 사실이 귀무가설을 기각하지 않게 하면 N/3이 됩니다. 베이지안의 경우도 마찬가지 결과.
Tags:
-
파이썬 기반의 딥 러닝 라이브러리
keras Kaggle 블로그 보다가 발견한 라이브러리 입니다. 설명은 다음과 같습니다. Keras is a minimalist, highly modular neural network library in the spirit of Torch, written in Python, that uses Theano under the hood for optimized tensor manipulation on GPU and CPU. It was developed with a focus on enabling fast experimentation. Kaggle의 competition에서 1등한 분들이…
Tags:
-
Spectral Clustering
Elements of Statistical Learning을 읽다가 도무지 이해가 안가서 유튜브에서 찾아서 모아봤습니다. 순서대로 보시면 됩니다. 그외에도 유튜브에서 spectral clustering을 검색해보면 좋은 강의가 많이 있습니다.
Tags:
-
TeraSort on Hadoop
아파치 하둡에서 예~전에 했던 테라소트에 대한 페이퍼가 TeraByte Sort on Apache Hadoop에 있습니다. 입력 데이터가 상당히 흥미로운데 대회 홈페이지의 입력 데이터 FAQ를 보면 JouleSort의 경우 key가 10바이트이고 key의 각 자리는 95개의 value에 대응된다고 합니다. 따라서 key가 같다고 value가 같지는 않지만 key 순으로 정렬하면 value도 정렬됩니다. 그래서 http://www.slideshare.net/mobile/tungld/terasort에 있는 것처럼 키값을 여러개의 범위로 나누고 각 범위를 reducer에…
Tags:
-
Boruta Algorithm
Boruta algorithm is a feature selection algorithm. Its purpose is to find all relevant features, and it does that by comparing Z score of original features and shuffled features. Shuffling here is similar to the idea in permutation tests. Z score of a variable in random forest is average loss when values of a feature…
Tags:
-
Linear Models
General Linear Model [wiki] Generalized Linear Model [wiki] General Additive Model [wiki]
Tags:
-
Visualizing orthogonal polynomial
http://mathoverflow.net/questions/38864/visualizing-orthogonal-polynomials https://en.wikipedia.org/wiki/Orthogonal_polynomials Above are really nice explanations on the orthogonal polynomial. Here’s R code to visualize orthogonal polynomial and raw polynomials. Here’s poly(x, 4, raw=TRUE) – as it’s hard to read in the plot.
Tags:
-
혼돈과 질서의 만남을 읽고
이 책은 본래 “Statistics and Truth”라는 이름으로 출판된 것인데 국내로 오면서 “확률 법칙을 통해 무질서(혼돈) 속에서 질서를 찾는 방법을 보여주고 있”는 내용에 따라 “혼돈과 질서의 만남”이란 제목으로 출판되었습니다. 이 책은 머리말에서 밝히듯이 “통계학의 역사와 발전에 관한 세 번의 강의”를 기초로 작성되었습니다. 1-3장은 불확실성에 대한 토의로 시작해 통계학의 발전 역사, 자료 분석의 원칙과 역사를 설명합니다. 4장은…
Tags:
-
불멸의 이론을 읽고
불멸의 이론이란 제목의 이 책은 베이지안의 역사에 대한 책입니다. 베이지안은 핍박 받으면서도 현재까지 살아남은 이론이란 말이겠죠. 베이즈가 베이지안의 핵심 이론이 되는 공식을 발견하고, 라플라스가 이를 재발견하고, Prior라는 개념때문에 빈도주의자들에의해 핍박을 받았으나 2차 대전 중 암호해독, 유보트 탐색 등에 적용된 이야기가 실려있습니다. 21세기에 들어서는 컴퓨터의 발달에 힘입어 다양한 분야에 응용(천문학, DNA분석, 무인 자동차, 스팸 이메일 필터링…
Tags:
-
Rvalue reference와 함수의 반환값
C++에서 const Klass&반환값 형태의 단점들을 쓴지도 시간이 많이 지났네요. C++11에서는 많은 것이 바뀌었습니다. 대표적인 것이 rvalue reference로 대표되는 Move semantics입니다. Move는 RVO(return value optimization)가 동작할 수 없을 때 객체의 복사비용을 줄이는 목적으로 사용됩니다. Move는 객체를 “복사”하는 대신 객체가 내부에 가진 포인터만 가져옵니다. 그런이유로 속도가 매우 빠릅니다. 이 글에서는 rvalue reference와 관련해 함수의 리턴 타입과 적절한…
Tags: