-
TeraSort on Hadoop
아파치 하둡에서 예~전에 했던 테라소트에 대한 페이퍼가 TeraByte Sort on Apache Hadoop에 있습니다. 입력 데이터가 상당히 흥미로운데 대회 홈페이지의 입력 데이터 FAQ를 보면 JouleSort의 경우 key가 10바이트이고 key의 각 자리는 95개의 value에 대응된다고 합니다. 따라서 key가 같다고 value가 같지는 않지만 key 순으로 정렬하면 value도 정렬됩니다. 그래서 http://www.slideshare.net/mobile/tungld/terasort에 있는 것처럼 키값을 여러개의 범위로 나누고 각 범위를 reducer에…
Tags:
-
Boruta Algorithm
Boruta algorithm is a feature selection algorithm. Its purpose is to find all relevant features, and it does that by comparing Z score of original features and shuffled features. Shuffling here is similar to the idea in permutation tests. Z score of a variable in random forest is average loss when values of a feature…
Tags:
-
Linear Models
General Linear Model [wiki] Generalized Linear Model [wiki] General Additive Model [wiki]
Tags:
-
Visualizing orthogonal polynomial
http://mathoverflow.net/questions/38864/visualizing-orthogonal-polynomials https://en.wikipedia.org/wiki/Orthogonal_polynomials Above are really nice explanations on the orthogonal polynomial. Here’s R code to visualize orthogonal polynomial and raw polynomials. Here’s poly(x, 4, raw=TRUE) – as it’s hard to read in the plot.
Tags:
-
혼돈과 질서의 만남을 읽고
이 책은 본래 “Statistics and Truth”라는 이름으로 출판된 것인데 국내로 오면서 “확률 법칙을 통해 무질서(혼돈) 속에서 질서를 찾는 방법을 보여주고 있”는 내용에 따라 “혼돈과 질서의 만남”이란 제목으로 출판되었습니다. 이 책은 머리말에서 밝히듯이 “통계학의 역사와 발전에 관한 세 번의 강의”를 기초로 작성되었습니다. 1-3장은 불확실성에 대한 토의로 시작해 통계학의 발전 역사, 자료 분석의 원칙과 역사를 설명합니다. 4장은…
Tags:
-
불멸의 이론을 읽고
불멸의 이론이란 제목의 이 책은 베이지안의 역사에 대한 책입니다. 베이지안은 핍박 받으면서도 현재까지 살아남은 이론이란 말이겠죠. 베이즈가 베이지안의 핵심 이론이 되는 공식을 발견하고, 라플라스가 이를 재발견하고, Prior라는 개념때문에 빈도주의자들에의해 핍박을 받았으나 2차 대전 중 암호해독, 유보트 탐색 등에 적용된 이야기가 실려있습니다. 21세기에 들어서는 컴퓨터의 발달에 힘입어 다양한 분야에 응용(천문학, DNA분석, 무인 자동차, 스팸 이메일 필터링…
Tags:
-
Rvalue reference와 함수의 반환값
C++에서 const Klass&반환값 형태의 단점들을 쓴지도 시간이 많이 지났네요. C++11에서는 많은 것이 바뀌었습니다. 대표적인 것이 rvalue reference로 대표되는 Move semantics입니다. Move는 RVO(return value optimization)가 동작할 수 없을 때 객체의 복사비용을 줄이는 목적으로 사용됩니다. Move는 객체를 “복사”하는 대신 객체가 내부에 가진 포인터만 가져옵니다. 그런이유로 속도가 매우 빠릅니다. 이 글에서는 rvalue reference와 관련해 함수의 리턴 타입과 적절한…
Tags:
-
magrittr 패키지
최근에 이름이 많이 알려진 magrittr을 써봤는데 정말 흥미롭군요. 새로이 코딩하는 재미가 있다고 할까요. %>% 을 사용해서 명령을 파이프로 연결하는 식으로 코딩하는 형식을 지원하는 패키지입니다. lhs %>% rhs는 lhs의 결과를 rhs의 첫번째 인자로 넘겨줍니다. 예를들어 iris의 head는 다음과 같이 볼 수 있습니다. dplyr 패키지를 사용하면 좀 더 다양한 연산을 할 수 있습니다. 예를들어 iris를 Species별로 그룹짓고…
Tags:
-
Seasonal Adjustment
https://www.census.gov/srd/www/x12a/ 미국 센서스에서 사용하는 계절 조정 방법 (seasonal adjustment). 시계열 분석할 때 항상 추세, 순환, 계절성, 불규칙 변동을 어떻게 분할하는 것이 정답인가 늘 궁금했는데 그 때 참고하려고 올려둠.
Tags:
-
Convex Combination
http://en.wikipedia.org/wiki/Convex_combination convex combination is a linear combination of points (which can be vectors, scalars, or more generally points in an affine space) where all coefficients are non-negative and sum to 1. 흔히 하는 가중 평균(?) 형태의 조합. 이렇게 convex combination은 조합된 점들의 convex hull안에 있다는 특징이 있음.
Tags: