• magrittr 패키지

    최근에 이름이 많이 알려진 magrittr을 써봤는데 정말 흥미롭군요. 새로이 코딩하는 재미가 있다고 할까요. %>% 을 사용해서 명령을 파이프로 연결하는 식으로 코딩하는 형식을 지원하는 패키지입니다. lhs %>% rhs는 lhs의 결과를 rhs의 첫번째 인자로 넘겨줍니다. 예를들어 iris의 head는 다음과 같이 볼 수 있습니다. dplyr 패키지를 사용하면 좀 더 다양한 연산을 할 수 있습니다. 예를들어 iris를 Species별로 그룹짓고…

    Tags:

  • Seasonal Adjustment

    https://www.census.gov/srd/www/x12a/ 미국 센서스에서 사용하는 계절 조정 방법 (seasonal adjustment). 시계열 분석할 때 항상 추세, 순환, 계절성, 불규칙 변동을 어떻게 분할하는 것이 정답인가 늘 궁금했는데 그 때 참고하려고 올려둠.

    Tags:

  • Convex Combination

    http://en.wikipedia.org/wiki/Convex_combination convex combination is a linear combination of points (which can be vectors, scalars, or more generally points in an affine space) where all coefficients are non-negative and sum to 1. 흔히 하는 가중 평균(?) 형태의 조합. 이렇게 convex combination은 조합된 점들의 convex hull안에 있다는 특징이 있음.

    Tags:

  • 책 나눔합니다: R을 이용한 데이터 처리&분석 실무

    제가 집필한 R을 이용한 데이터 처리&분석 실무 (http://www.yes24.com/24/goods/14971904) 가 판매 시작되었습니다. 저자 증정본이 도착하여 15분께 (필요하다면 15분을 추첨) 책을 나눠드리려고 합니다. 다음 링크를 확인해주세요. 신청 링크

    Tags:

  • 빅데이터의 패턴 찾기는 쉬운일인가

    “빅데이터는 모델을 만드는 대신 패턴을 찾아 그걸 사용할 뿐이다. 그런데 거기에 어떤 데이터에 대한 이해가 있는가”라는 질문을 던지는 경우를 본다. 이런 질문에는 일리가 있다. 결국은 세상에 대한 이해를 높이는 것이 목적이니까. 하지만 그 말속에 숨은 “패턴찾기”가 쉽다는 것처럼 이야기하는 뉘앙스에는 반대한다. 과연 패턴 세기가 만만한 일일까. 연속된 단어 3개(trigram)의 출현 빈도를 세는 경우를 생각해보자. 예를들어…

    Tags:

  • “R을 이용한 데이터 처리&분석 실무”가 출간되었습니다.

    그간 http://r4pda.co.kr/에서 무료로 PDF로 제공해오던 “R을 이용한 데이터 분석 실무”가 “R을 이용한 데이터 처리&분석 실무”라는 이름으로 길벗을 통해 출판하게 되었습니다. 생각보다 긴 시간이 걸렸습니다. PDF로 작성했던 내용 중 읽기 불편했던 부분을 개선하고자 구조적으로 내용을 뜯어고쳤습니다. 참고자료로만 넘겼던 이론적인 설명은 보강되었습니다. 오탈자와 오류를 수정하였고 더 많은 예를 추가시키고자 노력하였습니다. 현재 온라인 서점에서 예판중에 있고 11월 초에…

    Tags:

  • LDA(Latent Dirichlet Allocation) Example in R

    LDA is a generative model for finding topics in documents. I recommend probabilistic topic models article at Communications of ACM if you don’t know what LDA is. I found two packages in R: lda and topicmodels. Among them, I’ve chosen topicmodels as it has Vignettes Below is a simple example for using LDA() to model…

    Tags:

  • 통계학의 피카소는 누구일까

    “통계학의 피카소는 누구일까”라는 책을 우연히 알게되어 며칠동안 읽었습니다. 이 책은 저자의 말에 따르면 통계혁명 뒤에 자리한 핵심적인 생각들을 수학 기호를 사용하지 않고 쓴 책입니다. 이 책에는 칼 피어슨, 고셋, 피셔, 네이만, 이곤 피어슨, 콜모고로프, 튜키, 마할라노비스, 크레이머, 왈드, 코크란, 박스, 콕스, 튜키 등의 통계를 공부하다보면 한번 쯤은 봤을 이름들이 등장합니다. 그리고 이들의 연구들이 어떻게 진행되었고…

    Tags:

  • if else 대신 빠른 return의 코딩 스타일

    회사에서 코드 리뷰를 하다가 알게된 if-else 대신 빨리 return하는 코딩 스타일인데 접해보지 않은 분들도 계실것같아 올려봅니다. stack overflow에도 Programming style: should you return early if a guard condition is not satisfied?란 제목으로 글이 올라와 있기도 하고 effective go에도 간단히 언급되어 있는 스타일입니다. stackoverflow에 있는 질문을 옮겨보자면 다음 두가지 코딩 스타일 중 어느것이 나은가라는 것입니다. 1.…

    Tags:

  • BLAS 설정으로 R, numpy 성능 높히기

    Debian Science Linear Algebra Libraries Is your NumPy using the right ATLAS? For faster R use OpenBLAS instead: better than ATLAS, trivial to switch to on Ubuntu 매번 잊어버리는 것이라 적어놓습니다. R, numpy등은 BLAS(Basic Linear Algebra System)을 사용합니다. BLAS의 구현체에는 레퍼런스구현(libblas), ATLAS구현(libatlas), OpenBLAS구현(libopenblas)가 있고, 이들은 다음 명령으로 찾아볼 수 있습니다. (이하 모두 우분투 명령으로 설명)…

    Tags: