Tag: statistics

  • LDA(Latent Dirichlet Allocation) Example in R

    LDA is a generative model for finding topics in documents. I recommend probabilistic topic models article at Communications of ACM if you don’t know what LDA is. I found two packages in R: lda and topicmodels. Among them, I’ve chosen topicmodels as it has Vignettes Below is a simple example for using LDA() to model…

  • 통계학의 피카소는 누구일까

    “통계학의 피카소는 누구일까”라는 책을 우연히 알게되어 며칠동안 읽었습니다. 이 책은 저자의 말에 따르면 통계혁명 뒤에 자리한 핵심적인 생각들을 수학 기호를 사용하지 않고 쓴 책입니다. 이 책에는 칼 피어슨, 고셋, 피셔, 네이만, 이곤 피어슨, 콜모고로프, 튜키, 마할라노비스, 크레이머, 왈드, 코크란, 박스, 콕스, 튜키 등의 통계를 공부하다보면 한번 쯤은 봤을 이름들이 등장합니다. 그리고 이들의 연구들이 어떻게 진행되었고…

  • BLAS 설정으로 R, numpy 성능 높히기

    Debian Science Linear Algebra Libraries Is your NumPy using the right ATLAS? For faster R use OpenBLAS instead: better than ATLAS, trivial to switch to on Ubuntu 매번 잊어버리는 것이라 적어놓습니다. R, numpy등은 BLAS(Basic Linear Algebra System)을 사용합니다. BLAS의 구현체에는 레퍼런스구현(libblas), ATLAS구현(libatlas), OpenBLAS구현(libopenblas)가 있고, 이들은 다음 명령으로 찾아볼 수 있습니다. (이하 모두 우분투 명령으로 설명)…

  • 무료 ebook) R을 사용한 데이터 분석 실무 2013. 12. 01

    http://r4pda.co.kr/에 R을 사용한 데이터 분석 실무 2013. 12. 01 버젼을 업로드하였습니다. 이번에는 Classification 알고리즘에 대해 썼습니다. 정말로 이게 내가 쓸 수 있는 내용인가, 책에 쓴다면 어떤 부분을 써야하나 고민이 많았는데 모두 적절한 선을 찾아보려고 노력했습니다. 실은 마지막에 실제로 한가지 데이터를 가지고 처음부터 끝까지 머신 러닝을 하는 예를 넣어보려고 했는데, 너무 늘어지는 감이 있어서 이건 다음으로…

  • 서평: Applied Predictive Modelling

    올해 나온 R 책중에 가장 많은 기대를 받았던 책을 뽑자면 Applied Predictive Modelling을 빼놓을 수 없을 것입니다. 그 이유는 The caret Package로 잘 알려진 Max Kuhn이 저자 중 한 사람이기 때문이었습니다. caret은 R에서 모델링에 사용되는 다양한 패키지와 함수들을 몇가지 함수로 쉽게 접근할 수 있도록 묶었고 또 이들을 쉽게 튜닝하는 간편한 방법을 제시하였습니다. 얼마나 꼼꼼하게 다양한…

  • Statistics Done Wrong을 읽고

    http://www.refsmmat.com/statistics/index.html 여러가지 통계적 오류에 대한 글입니다. 유사한 책으로 how to lie with statistics 같은 책도 있지만, 그보다는 짧고 밀도가 높은 내용입니다. Statistical power, base rate fallacy, significant difference를 맞게 측정하는 방법, multiple testing, truth inflation 등이 기술적인(?) 주제에 해당하고 이 내용들을 수식이 거의 없이 설명하는게 인상적입니다. 물론 수식이 없다고 통계지식 없이 읽을 수는 없습니다만… 차후에…

  • Installing R and scikit-learn on OSX with openblas

    For R, use homebrew. Don’t miss –with-openblas. In my own experience, using –with-openblas improved performance x20 on a benchmark. To install scikit-learn, use homebrew and pip. Again, –with-openblas improved performance x2 for my program.

  • (무료) R을 이용한 데이터 분석 실무 2013. 08. 13버젼 올렸습니다.

    http://r4pda.co.kr/ 에서 확인하실 수 있습니다. 언제부터인지 정확히 기억은 나지 않지만, 이 책을 쓰는 일이 벌써 대략 일년이나 된 작업이 되었습니다. 그간 총 4번에 걸쳐 파일을 업로드했고 매번 3개월 정도의 시간이 걸렸기 때문입니다. 그간 몇분들로부터 내용에 대한 피드백을 받기도 했고, 공유한 내용에 자체에 대해 감사 메일을 주신 분도 계셨습니다. 저로서도 그분들께, 그리고 별다른 말씀없으셨어도 다운받아 가신…

  • Feature Selection

    This is great summary on the features selection: http://files.meetup.com/1225993/Deng_12_12_11_BARUG.pptx. It’s written by Houtao Deng who wrote Feature Selection via Regularized Trees(RRF). Here’s brief summary of the presentation: * Feature Selection Method – Univariate Filter: Information Gain, Chi-Squared – Multivariate Filter: CFS, FCBF – Wrapper Methods: LASSO, SVM-RFE, RF-RFE, RRF * Feature Selection Methods for Classifiers…

  • How to convert list of data frames into one data frame

    Problem to discuss is how to convert the following list of data frames into one data frame. One commonly known approach is to convert the list to vector using unlist(), and then convert to matrix, and then finally make it as data frame. But this has drawback as unlist() will perform type-coercion as vector can…