• 책 나눔합니다: R을 이용한 데이터 처리&분석 실무

    제가 집필한 R을 이용한 데이터 처리&분석 실무 (http://www.yes24.com/24/goods/14971904) 가 판매 시작되었습니다. 저자 증정본이 도착하여 15분께 (필요하다면 15분을 추첨) 책을 나눠드리려고 합니다. 다음 링크를 확인해주세요. 신청 링크

    Tags:

  • 빅데이터의 패턴 찾기는 쉬운일인가

    “빅데이터는 모델을 만드는 대신 패턴을 찾아 그걸 사용할 뿐이다. 그런데 거기에 어떤 데이터에 대한 이해가 있는가”라는 질문을 던지는 경우를 본다. 이런 질문에는 일리가 있다. 결국은 세상에 대한 이해를 높이는 것이 목적이니까. 하지만 그 말속에 숨은 “패턴찾기”가 쉽다는 것처럼 이야기하는 뉘앙스에는 반대한다. 과연 패턴 세기가 만만한 일일까. 연속된 단어 3개(trigram)의 출현 빈도를 세는 경우를 생각해보자. 예를들어…

    Tags:

  • “R을 이용한 데이터 처리&분석 실무”가 출간되었습니다.

    그간 http://r4pda.co.kr/에서 무료로 PDF로 제공해오던 “R을 이용한 데이터 분석 실무”가 “R을 이용한 데이터 처리&분석 실무”라는 이름으로 길벗을 통해 출판하게 되었습니다. 생각보다 긴 시간이 걸렸습니다. PDF로 작성했던 내용 중 읽기 불편했던 부분을 개선하고자 구조적으로 내용을 뜯어고쳤습니다. 참고자료로만 넘겼던 이론적인 설명은 보강되었습니다. 오탈자와 오류를 수정하였고 더 많은 예를 추가시키고자 노력하였습니다. 현재 온라인 서점에서 예판중에 있고 11월 초에…

    Tags:

  • LDA(Latent Dirichlet Allocation) Example in R

    LDA is a generative model for finding topics in documents. I recommend probabilistic topic models article at Communications of ACM if you don’t know what LDA is. I found two packages in R: lda and topicmodels. Among them, I’ve chosen topicmodels as it has Vignettes Below is a simple example for using LDA() to model…

    Tags:

  • 통계학의 피카소는 누구일까

    “통계학의 피카소는 누구일까”라는 책을 우연히 알게되어 며칠동안 읽었습니다. 이 책은 저자의 말에 따르면 통계혁명 뒤에 자리한 핵심적인 생각들을 수학 기호를 사용하지 않고 쓴 책입니다. 이 책에는 칼 피어슨, 고셋, 피셔, 네이만, 이곤 피어슨, 콜모고로프, 튜키, 마할라노비스, 크레이머, 왈드, 코크란, 박스, 콕스, 튜키 등의 통계를 공부하다보면 한번 쯤은 봤을 이름들이 등장합니다. 그리고 이들의 연구들이 어떻게 진행되었고…

    Tags:

  • if else 대신 빠른 return의 코딩 스타일

    회사에서 코드 리뷰를 하다가 알게된 if-else 대신 빨리 return하는 코딩 스타일인데 접해보지 않은 분들도 계실것같아 올려봅니다. stack overflow에도 Programming style: should you return early if a guard condition is not satisfied?란 제목으로 글이 올라와 있기도 하고 effective go에도 간단히 언급되어 있는 스타일입니다. stackoverflow에 있는 질문을 옮겨보자면 다음 두가지 코딩 스타일 중 어느것이 나은가라는 것입니다. 1.…

    Tags:

  • BLAS 설정으로 R, numpy 성능 높히기

    Debian Science Linear Algebra Libraries Is your NumPy using the right ATLAS? For faster R use OpenBLAS instead: better than ATLAS, trivial to switch to on Ubuntu 매번 잊어버리는 것이라 적어놓습니다. R, numpy등은 BLAS(Basic Linear Algebra System)을 사용합니다. BLAS의 구현체에는 레퍼런스구현(libblas), ATLAS구현(libatlas), OpenBLAS구현(libopenblas)가 있고, 이들은 다음 명령으로 찾아볼 수 있습니다. (이하 모두 우분투 명령으로 설명)…

    Tags:

  • 무료 ebook) R을 사용한 데이터 분석 실무 2013. 12. 01

    http://r4pda.co.kr/에 R을 사용한 데이터 분석 실무 2013. 12. 01 버젼을 업로드하였습니다. 이번에는 Classification 알고리즘에 대해 썼습니다. 정말로 이게 내가 쓸 수 있는 내용인가, 책에 쓴다면 어떤 부분을 써야하나 고민이 많았는데 모두 적절한 선을 찾아보려고 노력했습니다. 실은 마지막에 실제로 한가지 데이터를 가지고 처음부터 끝까지 머신 러닝을 하는 예를 넣어보려고 했는데, 너무 늘어지는 감이 있어서 이건 다음으로…

    Tags:

  • 서평: Applied Predictive Modelling

    올해 나온 R 책중에 가장 많은 기대를 받았던 책을 뽑자면 Applied Predictive Modelling을 빼놓을 수 없을 것입니다. 그 이유는 The caret Package로 잘 알려진 Max Kuhn이 저자 중 한 사람이기 때문이었습니다. caret은 R에서 모델링에 사용되는 다양한 패키지와 함수들을 몇가지 함수로 쉽게 접근할 수 있도록 묶었고 또 이들을 쉽게 튜닝하는 간편한 방법을 제시하였습니다. 얼마나 꼼꼼하게 다양한…

    Tags:

  • Statistics Done Wrong을 읽고

    http://www.refsmmat.com/statistics/index.html 여러가지 통계적 오류에 대한 글입니다. 유사한 책으로 how to lie with statistics 같은 책도 있지만, 그보다는 짧고 밀도가 높은 내용입니다. Statistical power, base rate fallacy, significant difference를 맞게 측정하는 방법, multiple testing, truth inflation 등이 기술적인(?) 주제에 해당하고 이 내용들을 수식이 거의 없이 설명하는게 인상적입니다. 물론 수식이 없다고 통계지식 없이 읽을 수는 없습니다만… 차후에…

    Tags: