• 무료 ebook) R을 사용한 데이터 분석 실무 2013. 12. 01

    http://r4pda.co.kr/에 R을 사용한 데이터 분석 실무 2013. 12. 01 버젼을 업로드하였습니다. 이번에는 Classification 알고리즘에 대해 썼습니다. 정말로 이게 내가 쓸 수 있는 내용인가, 책에 쓴다면 어떤 부분을 써야하나 고민이 많았는데 모두 적절한 선을 찾아보려고 노력했습니다. 실은 마지막에 실제로 한가지 데이터를 가지고 처음부터 끝까지 머신 러닝을 하는 예를 넣어보려고 했는데, 너무 늘어지는 감이 있어서 이건 다음으로…

    Tags:

  • 서평: Applied Predictive Modelling

    올해 나온 R 책중에 가장 많은 기대를 받았던 책을 뽑자면 Applied Predictive Modelling을 빼놓을 수 없을 것입니다. 그 이유는 The caret Package로 잘 알려진 Max Kuhn이 저자 중 한 사람이기 때문이었습니다. caret은 R에서 모델링에 사용되는 다양한 패키지와 함수들을 몇가지 함수로 쉽게 접근할 수 있도록 묶었고 또 이들을 쉽게 튜닝하는 간편한 방법을 제시하였습니다. 얼마나 꼼꼼하게 다양한…

    Tags:

  • Statistics Done Wrong을 읽고

    http://www.refsmmat.com/statistics/index.html 여러가지 통계적 오류에 대한 글입니다. 유사한 책으로 how to lie with statistics 같은 책도 있지만, 그보다는 짧고 밀도가 높은 내용입니다. Statistical power, base rate fallacy, significant difference를 맞게 측정하는 방법, multiple testing, truth inflation 등이 기술적인(?) 주제에 해당하고 이 내용들을 수식이 거의 없이 설명하는게 인상적입니다. 물론 수식이 없다고 통계지식 없이 읽을 수는 없습니다만… 차후에…

    Tags:

  • Installing R and scikit-learn on OSX with openblas

    For R, use homebrew. Don’t miss –with-openblas. In my own experience, using –with-openblas improved performance x20 on a benchmark. To install scikit-learn, use homebrew and pip. Again, –with-openblas improved performance x2 for my program.

    Tags:

  • Sorting two arrays at once in Python

    If two arrays should be sorted with the same criteria, use zip.

    Tags:

  • Linux Kernel 3.9 에서의 SO_REUSEPORT

    http://freeprogrammersblog.vhex.net/post/linux-39-introdued-new-way-of-writing-socket-servers/2 https://lwn.net/Articles/542629/ SO_REUSE_PORT를 사용해서 소켓을 만드는 프로세스를 여러개 띄우면 부모 process 역할은 커널이 알아서 한다. 이 때 어떤 child process가 요청을 처리할지도 공평하게 분배해서 workload의 분산이 잘 이루어짐. 이 방식이 정말 사용하기 쉬운게, 자식 프로세스는 필요하면 그냥 더 띄우기만 하면 되기 때문. 더구나 이건 pre-fork model이므로 접속이 있을때마다 자식 process를 띄우는 것에 비해 프로세스의 수나…

    Tags:

  • HTTPS상의 압축에 따른 취약점 공격: CRIME과 BREACH

    제가 SSL/TLS는 잘 몰라서 틀린점이 있을 수 있습니다. 그리고 편의를 위해 개략적으로만 설명합니다. CRIME의 기본 아이디어는 다음과 같습니다.. (편의를 위해 공격자: attacker, 악의적인 사이트: evil.com, 피해자: victim, 공격대상 사이트: target.com 의 용어를 사용) TLS상에 주고받는 데이터를 해독할 수는 없지만 주고받는 데이터의 크기는 알 수 있다고 가정. attacker가 사용자가 대상 사이트에 전송하는 데이터에 임의의 값을 삽입할…

    Tags:

  • (무료) R을 이용한 데이터 분석 실무 2013. 08. 13버젼 올렸습니다.

    http://r4pda.co.kr/ 에서 확인하실 수 있습니다. 언제부터인지 정확히 기억은 나지 않지만, 이 책을 쓰는 일이 벌써 대략 일년이나 된 작업이 되었습니다. 그간 총 4번에 걸쳐 파일을 업로드했고 매번 3개월 정도의 시간이 걸렸기 때문입니다. 그간 몇분들로부터 내용에 대한 피드백을 받기도 했고, 공유한 내용에 자체에 대해 감사 메일을 주신 분도 계셨습니다. 저로서도 그분들께, 그리고 별다른 말씀없으셨어도 다운받아 가신…

    Tags:

  • 더 빠른 모바일 사이트를 위한 구글의 가이드라인

    https://developers.google.com/speed/docs/insights/mobile DNS Lookup, TCP Connection, HTTP Request/Response에 600ms 가 소요되므로 1초안에 페이지를 로딩하려면 400ms안에 (서버/클라이언트) 렌더링이 끝나야함. 특히 다음에 유의: 1) 서버측 렌더링은 200ms 안에 종료할 것. 2) 리다이렉트는 최소화할 것 3) TCP Slowstart로 인해 congestion window가 커지기 전까지 총 10개의 TCP Packet(14KB)를 주고 받으므로 이 안에 ATF(above the fold)의 렌더링을 끝낼 것. 4) ATF에서…

    Tags:

  • Term의 분포

    Heaps law 코퍼스내 unique term의 수는 (문서의 길이)^b 에 비례. b는 보통 0.4-0.6사이의 수 Zipf’s Law 어떤 term의 빈도는 term빈도에따라 term들을 나열했을때의 랭킹에 반비례

    Tags: