Passion is like genius; a miracle. – Page 21 – Blog on Software, Statistics, and Quant

R을 이용한 데이터 분석 실무(무료도서) 버젼2 공개합니다.

http://r4pda.co.kr/에 ‘R을 이용한 데이터 분석 실무’의 두번째 버젼을 방금 업로드 하였습니다. 이번에는 앞서 공개드린 문서의 셀수도 없이 많은 오탈자와 비문을 수정했고, 6장 그래프, 7장 통계분석을 추가하였습니다. 6장 그래프에서 Lattice나 ggplot에 대해서 쓰지 못한 것은 너무 아쉽지만 그 둘을 쓰다보면 상당시간 동안 그래프만 그리고 있게 될것 같아서 잠시 미뤄두고 있습니다. 아직 집필중인 7장의 통계 분석 챕터에도…

February 16, 2013

Tags:

statistics
How to replace factor in R

Use levels().

February 1, 2013

Tags:

statistics
Amazon EC2 Recipe for R

I’ve written a preliminary script to run my R processes on amazon ec2. Don’t know if I will end up with buying a new PC or with being an enthusiastic ec2 user. Run: ./ec2_ready.sh && ./ec2_work.sh ec2.config common.sh ec2_ready.sh ec2_work.sh

January 31, 2013

Tags:

statistics
rbinom과 sample로 Train, Validation, Test 데이터 선택하기

http://class.coursera.org/dataanalysis-001/ 과목에서 보고 올려봅니다. rbinom() 으로 10000개 데이터에서 트레이닝셋(1인경우), 테스트셋(0인 경우)를 선택. (앞면이 나올 확률이 70%인 동전을 한번 던지는 실험을 10000회 수행) sample()로 train, validation, test를 데이터 overlapping 안되게 선택. 역시 골프 잘 치는 사람들은 정말 많군요.

January 31, 2013

Tags:

statistics
대량의 데이터에서 대략적으로 unique item 의 수 세기

http://blog.notdot.net/2012/09/Dam-Cool-Algorithms-Cardinality-Estimation HyperLogLog 라고 하는 알고리즘. 셋이 주어지면 아이템들의 해시값을 구한 뒤 해시값의 맨 앞에서 연속적으로 나타난 0의 최대 갯수를 세고, 이로부터 전체 unique 데이터 갯수를 알아냅니다. 예를들어 해시함수의 출력이 m자리 이진수라고 해보죠. n개 수를 해싱했더니 나온 n개 해시값들중에서 연속된 0이 가장 길게 나온경우는 세자리였다고 해보겠습니다. 연속적으로 0이 3자리 나오는건 약 2^3개의 엘리먼트를 볼때마다이므로 unique item…

December 22, 2012

Tags:

software
Cross Validation in R using cvTools

Output:

December 19, 2012

Tags:

statistics
C++에서 const Klass&반환값 형태의 단점들.

논의하고 싶은 상황은 예를들면 아래와 같은 경우입니다. foo()는 Klass을 반환해야할까요 아니면 const Klass&을 반환해야할까요? const Klass& 형태의 리턴을 원하는 까닭은 당연하게도 퍼포먼스입니다. 그러나 Klass을 반환해야하는 이유는 더 많습니다. const reference가 아니라 value를 반환해야하는 이유 만약 foo()의 구현이 내부에서 복잡한 연산을 한다음 Klass를 리턴하는 것이라면 Klass 복사하는 것을 없애는 것이 전체 실행시간에 큰 영향이 없습니다. 특히…

November 25, 2012

Tags:

software
(무료도서) R을 이용한 데이터 분석 실무

R을 배우기 시작한지 시간도 좀 지났고해서 블로그 글을 꾸준히 쓴는 것도 좋지만 좀 더 잘 정리해보자는 생각이 들었습니다. 그래서 몇달전부터 latex을 붙잡고 열심히 씨름한 결과 공개해도 괜찮을 정도의 분량의 문서 작성이 끝났습니다. http://r4pda.co.kr/에 ‘R을 이용한 데이터 분석 실무’라는 제목으로 책을 올렸습니다. 이 책의 컨셉은 어느정도 프로그래밍도 되고, 통계나 머신 러닝기법에 대한 개념이 있는 분이 손쉽게…

November 24, 2012

Tags:

statistics
My certification on Mathematical Biostatistics Bootcamp

This is earned from coursera.org course. It is a basic statistics course, but the quiz questions are difficult than the course contents. It’s a nice way to brush up basic statistical knowledge.

November 20, 2012

Tags:

statistics
Relative Risk, Odds Ratio

Relative Risk는 Cohort Study에서 사용되며, Odds Ratio는 Case Control Study에 사용된다. 범주형 자료 분석 : 왜 오즈비(odds ratio) vs 상대 위험도(relative risk) 를 만들었을까?에 설명되어있듯이 Relative Risk가 더 이해하기 쉽지만, Case Control Study처럼 결과를 먼저 뽑은 뒤 원인을 분석하는 방법에는 적당하지 않다. 왜냐하면 어떤 원인에 의해 어떤 결과가 발생한 총비율을 알 수 없기 때문이다. 링크의…

November 20, 2012

Tags:

statistics