• Feature Selection

    This is great summary on the features selection: http://files.meetup.com/1225993/Deng_12_12_11_BARUG.pptx. It’s written by Houtao Deng who wrote Feature Selection via Regularized Trees(RRF). Here’s brief summary of the presentation: * Feature Selection Method – Univariate Filter: Information Gain, Chi-Squared – Multivariate Filter: CFS, FCBF – Wrapper Methods: LASSO, SVM-RFE, RF-RFE, RRF * Feature Selection Methods for Classifiers…

    Tags:

  • How to convert list of data frames into one data frame

    Problem to discuss is how to convert the following list of data frames into one data frame. One commonly known approach is to convert the list to vector using unlist(), and then convert to matrix, and then finally make it as data frame. But this has drawback as unlist() will perform type-coercion as vector can…

    Tags:

  • Converting JSON to Data Frame in R

    Here’s an example to load json objects into R’s data frame. You need some formatting of the json file contents if your file is not formatted nicely: Here’s how to for loading the file contents in such case: It takes a bit more effort if json object has some nested elements. This is one of…

    Tags:

  • (무료도서) R을 이용한 데이터 분석 실무 2013.05.12 버젼 올렸습니다.

    http://r4pda.co.kr/ 에서 확인하실 수 있습니다. 이번 업데이트에서는 r-project.org에 속한 ihelp 프로젝트의 메일링 리스트 ihelp-r4pda@lists.r-forge.r-project.org 를 통해서 많은 피드백을 받아서 반영하였습니다. ihelp의 이철희님이 많은 피드백을 주셨고 이에 따라 크고 작은 개선이 이었습니다. 피드백을 받고 가장 크게 바꾼것은 ‘제어문, 연산, 함수’ 챕터를 좀 더 보강한 점입니다. 수정 및 보충 사항외에, 이번에는 선형회귀 챕터를 추가하였습니다. 사실 선형회귀 하나만…

    Tags:

  • 웹 분석과 데이터 마이닝을 위한 확률적 자료구조

    Probabilistic Data Structures for Web Analytics and Data Mining 이런 훌륭한 글이 있군요. 위 글은 많은 양의 데이터에서 각 아이템의 출현횟수를 세거나 unique 아이템의 수가 몇개인지 세거나 하는 방법들입니다. 예를들어 integer가 엄청나게 많을때 각 값의 출현횟수 세기같은 경우죠. 간단하게 관심가는 것들, 기본적인 내용으로 정리해봅니다. 1. 입력에 몇개의 unique한 수가 있는지 세기(Cardinality Esitmation): Linear Counting m…

    Tags:

  • OSX에서 Latex 설치하기

    http://curriq.com/course/73 ktug 링크가 죽어있는 것 같아서 정리된 내용을 찾아 올려둡니다.

    Tags:

  • R을 이용한 데이터 분석 실무(무료도서) 버젼2 공개합니다.

    http://r4pda.co.kr/에 ‘R을 이용한 데이터 분석 실무’의 두번째 버젼을 방금 업로드 하였습니다. 이번에는 앞서 공개드린 문서의 셀수도 없이 많은 오탈자와 비문을 수정했고, 6장 그래프, 7장 통계분석을 추가하였습니다. 6장 그래프에서 Lattice나 ggplot에 대해서 쓰지 못한 것은 너무 아쉽지만 그 둘을 쓰다보면 상당시간 동안 그래프만 그리고 있게 될것 같아서 잠시 미뤄두고 있습니다. 아직 집필중인 7장의 통계 분석 챕터에도…

    Tags:

  • How to replace factor in R

    Use levels().

    Tags:

  • Amazon EC2 Recipe for R

    I’ve written a preliminary script to run my R processes on amazon ec2. Don’t know if I will end up with buying a new PC or with being an enthusiastic ec2 user. Run: ./ec2_ready.sh && ./ec2_work.sh ec2.config common.sh ec2_ready.sh ec2_work.sh

    Tags:

  • rbinom과 sample로 Train, Validation, Test 데이터 선택하기

    http://class.coursera.org/dataanalysis-001/ 과목에서 보고 올려봅니다. rbinom() 으로 10000개 데이터에서 트레이닝셋(1인경우), 테스트셋(0인 경우)를 선택. (앞면이 나올 확률이 70%인 동전을 한번 던지는 실험을 10000회 수행) sample()로 train, validation, test를 데이터 overlapping 안되게 선택. 역시 골프 잘 치는 사람들은 정말 많군요.

    Tags: