• 신뢰수준(significance level)의 의미

    신뢰수준은 참값이 특정 범위에 있는 확률과는 약간 다릅니다. 그보다는 참값을 구하기 위한 작업을 많이 반복했을때 참값이 특정 범위에 있는 비율을 말합니다. 또는 방법의 정확도를 뜻합니다. 예를들어 10,000명이 치른 통계 시험 성적이 있다고 하겠습니다. 이 때, 100명을 랜덤 샘플링해서 샘플로부터 “99%의 신뢰수준으로 평균이 이다”라고 평균을 추정했다고 해보겠습니다. 이 때 99%를 신뢰수준(significance level)이라고 하고, 를 신뢰구간(confidence interval)이라고…

    Tags:

  • maxLik package for optimization

    maxLik is a statistical package for maximum likelihood estimation. For example, the max of can be found like the below using newton raphson method. Estimate was 3.5, and this is correct because . Optimization and Mathematical Programming has list of packages for optimization.

    Tags:

  • Chevyshev’s Inequality

    http://en.wikipedia.org/wiki/Chebyshev’s_inequality 평균으로부터 k sigma 이상 떨어진 데이터의 비율은 1/k^2 보다 작다. 예를들어 평균에서 6 sigma이상 떨어진 데이터의 비율은 1/36이하이다. Chevyshev Inequality는 아주 tight한 bound는 아니라서 실제로는 이 식으로 구해진 값보다 더 적은 데이터만 평균보다 k sigma 떨어져있다.

    Tags:

  • Machine Learning에 알아둘만한 몇가지 유용한 것들

    http://www.kdnuggets.com/2012/09/pedro-domingos-useful-things-about-machine-learning.html 머신 러닝에 대한 folk knowledge가 정리된글. Communications of ACM글인데 링크된 곳에 무료 버젼도 링크도있습니다.

    Tags:

  • MAC용 다변량 분석 도구

    Wizard for Mac 이라는 툴인데 꽤나 편해 보입니다. 아무래도 이런툴들은 R로도 쉽게 할수 있는 일을 해주는 것 뿐이지만 각종 분석 기법이 잘 정리되어 있고, 기법마다 관련된 시각화나 통계량이 역시 잘 정리되어있는게 강점입니다. 예를들면 ordered probit과 multinomial logit이 라디오 단추로 제공되는것처럼요.

    Tags:

  • MySQL on OSX

    After installing mysql51 and mysql51-server using macports, we need to make it secure by running /local/lib/mysql51/bin/mysql_secure_installation. But before that, as default installation does not set root password, root password should be set first: And then run mysql_secure_installation. Here’s how to start and stop mysql: ‘mysqlstop’ needs you to enter mysql root’s password. If that’s annoying,…

    Tags:

  • Topic Sensitive Pagerank

    Topic sensitive pagerank is a way of getting pageranks per topic instead of using just one pagerank for all pages. In the book Mining of Massive Datasets, biased random walk algorithm is introduced. In the algorithm, we let the random surfer jumps to the page with the specific topic when it wants to teleport. That…

    Tags:

  • Certification from ml-class.org

    두번째 course.org로 부터 받은 certification. Machine Learning 분야에서 잘 알려진 Andrew Ng의 수업이었고, Octave도 잘 배워서 좋았습니다. 시간 좀 내서extra credit 프로그래밍도 다 마쳤더니 만점을 넘는 점수를 받았습니다. ml-class.org에서 8월 20일(미국시간기준)에 새 클래스가 열리니 관심있으신분은 수강신청하세요~.

    Tags:

  • Scaling Up Machine Learning – LinkedIn Techtalk

    요즘 기계학습이나 데이터 분석을 이야기할때 많이 거론되는 회사중 하나가 LinkedIn인데, 이 회사에서도 최근 Youtube에 Techtalk채널을 개설해 동영상을 올리고 있네요. 위의 동영상은 P2P, Virtual Cluster, HPC Cluster, Multicore, GPU, FPGA의 각 수준에서 병렬화를 이용한 machine learning입니다. 이 동영상에서 보인 발표자료는 http://hunch.net/~large_scale_survey/에 있습니다. 마침 KDD2011의 튜토리얼에도 사용된 자료이더군요.

    Tags:

  • Bagged tree imputation for missing values using caret

    Output: It was just luck that we reached 100% accuracy. Running this multiple times may show 96% accuracy, too.

    Tags: