• Converting JSON to Data Frame in R

    Here’s an example to load json objects into R’s data frame. You need some formatting of the json file contents if your file is not formatted nicely: Here’s how to for loading the file contents in such case: It takes a bit more effort if json object has some nested elements. This is one of…

    Tags:

  • (무료도서) R을 이용한 데이터 분석 실무 2013.05.12 버젼 올렸습니다.

    http://r4pda.co.kr/ 에서 확인하실 수 있습니다. 이번 업데이트에서는 r-project.org에 속한 ihelp 프로젝트의 메일링 리스트 ihelp-r4pda@lists.r-forge.r-project.org 를 통해서 많은 피드백을 받아서 반영하였습니다. ihelp의 이철희님이 많은 피드백을 주셨고 이에 따라 크고 작은 개선이 이었습니다. 피드백을 받고 가장 크게 바꾼것은 ‘제어문, 연산, 함수’ 챕터를 좀 더 보강한 점입니다. 수정 및 보충 사항외에, 이번에는 선형회귀 챕터를 추가하였습니다. 사실 선형회귀 하나만…

    Tags:

  • 웹 분석과 데이터 마이닝을 위한 확률적 자료구조

    Probabilistic Data Structures for Web Analytics and Data Mining 이런 훌륭한 글이 있군요. 위 글은 많은 양의 데이터에서 각 아이템의 출현횟수를 세거나 unique 아이템의 수가 몇개인지 세거나 하는 방법들입니다. 예를들어 integer가 엄청나게 많을때 각 값의 출현횟수 세기같은 경우죠. 간단하게 관심가는 것들, 기본적인 내용으로 정리해봅니다. 1. 입력에 몇개의 unique한 수가 있는지 세기(Cardinality Esitmation): Linear Counting m…

    Tags:

  • OSX에서 Latex 설치하기

    http://curriq.com/course/73 ktug 링크가 죽어있는 것 같아서 정리된 내용을 찾아 올려둡니다.

    Tags:

  • R을 이용한 데이터 분석 실무(무료도서) 버젼2 공개합니다.

    http://r4pda.co.kr/에 ‘R을 이용한 데이터 분석 실무’의 두번째 버젼을 방금 업로드 하였습니다. 이번에는 앞서 공개드린 문서의 셀수도 없이 많은 오탈자와 비문을 수정했고, 6장 그래프, 7장 통계분석을 추가하였습니다. 6장 그래프에서 Lattice나 ggplot에 대해서 쓰지 못한 것은 너무 아쉽지만 그 둘을 쓰다보면 상당시간 동안 그래프만 그리고 있게 될것 같아서 잠시 미뤄두고 있습니다. 아직 집필중인 7장의 통계 분석 챕터에도…

    Tags:

  • How to replace factor in R

    Use levels().

    Tags:

  • Amazon EC2 Recipe for R

    I’ve written a preliminary script to run my R processes on amazon ec2. Don’t know if I will end up with buying a new PC or with being an enthusiastic ec2 user. Run: ./ec2_ready.sh && ./ec2_work.sh ec2.config common.sh ec2_ready.sh ec2_work.sh

    Tags:

  • rbinom과 sample로 Train, Validation, Test 데이터 선택하기

    http://class.coursera.org/dataanalysis-001/ 과목에서 보고 올려봅니다. rbinom() 으로 10000개 데이터에서 트레이닝셋(1인경우), 테스트셋(0인 경우)를 선택. (앞면이 나올 확률이 70%인 동전을 한번 던지는 실험을 10000회 수행) sample()로 train, validation, test를 데이터 overlapping 안되게 선택. 역시 골프 잘 치는 사람들은 정말 많군요.

    Tags:

  • 대량의 데이터에서 대략적으로 unique item 의 수 세기

    http://blog.notdot.net/2012/09/Dam-Cool-Algorithms-Cardinality-Estimation HyperLogLog 라고 하는 알고리즘. 셋이 주어지면 아이템들의 해시값을 구한 뒤 해시값의 맨 앞에서 연속적으로 나타난 0의 최대 갯수를 세고, 이로부터 전체 unique 데이터 갯수를 알아냅니다. 예를들어 해시함수의 출력이 m자리 이진수라고 해보죠. n개 수를 해싱했더니 나온 n개 해시값들중에서 연속된 0이 가장 길게 나온경우는 세자리였다고 해보겠습니다. 연속적으로 0이 3자리 나오는건 약 2^3개의 엘리먼트를 볼때마다이므로 unique item…

    Tags:

  • Cross Validation in R using cvTools

    Output:

    Tags: