Tag: statistics
-
서평: An Introduction to Generalized Linear Model
An Introduction to Generalized Linear Model은 일반화 선형 모형에 대한 입문서 입니다. Logistic Regression라고 하면 glm(family=”binomial”…) 명령을 당연하게 생각하면서도, 정작 glm이 뭔지… glm만 나오면 ‘난 모르는일..’ 하고 넘어가다가 언젠가는 한번 봐둬야 하지 않을까 싶어서 읽게 되었습니다. 이 책의 첫인상은 난무하는 행렬식. 그래서 겁을 먹은 나머지 읽는데 수개월은 걸릴거라고 생각하고 시작했는데, 실제로는 훨씬 빨리 끝낼 수…
-
My Certification on Computing for Data Analysis
I got certification from coursera.org’s course with distinction on data analysis using R. This lecture has pretty neat lecture slides covering data manipulation and plotting. Even if you’re good at R, it worth spending time on reading the material and taking the quiz. I learned a lot.
-
Finding Optimal Threshold using ROC Curve for Classification
Let’s assume two class(A and B) classification. Also assume that a classification algorithm predicts that the given data is class A with probability 0.8. To predict if it’s class A or B, we need a threshold parameter (i.e., cutoff). If 0.8 is higher then the threshold , we’ll predict that the data is class A.…
-
Resampling for Confidence Interval
Resampling is a method doing one of these: bootstrapping(random resampling), jackknifing(using subset of data), permutation test(or exact tests, randomization tests or re-randomization tests), cross validation. By taking many smaller samples from the given samples, one can estimate confidence interval: Statistics and Data Analysis: Confidence Intervals Based on Resampling Here’s R code for it: Quick-R: Bootstrapping…
-
신뢰수준(significance level)의 의미
신뢰수준은 참값이 특정 범위에 있는 확률과는 약간 다릅니다. 그보다는 참값을 구하기 위한 작업을 많이 반복했을때 참값이 특정 범위에 있는 비율을 말합니다. 또는 방법의 정확도를 뜻합니다. 예를들어 10,000명이 치른 통계 시험 성적이 있다고 하겠습니다. 이 때, 100명을 랜덤 샘플링해서 샘플로부터 “99%의 신뢰수준으로 평균이 이다”라고 평균을 추정했다고 해보겠습니다. 이 때 99%를 신뢰수준(significance level)이라고 하고, 를 신뢰구간(confidence interval)이라고…
-
maxLik package for optimization
maxLik is a statistical package for maximum likelihood estimation. For example, the max of can be found like the below using newton raphson method. Estimate was 3.5, and this is correct because . Optimization and Mathematical Programming has list of packages for optimization.
-
Chevyshev’s Inequality
http://en.wikipedia.org/wiki/Chebyshev’s_inequality 평균으로부터 k sigma 이상 떨어진 데이터의 비율은 1/k^2 보다 작다. 예를들어 평균에서 6 sigma이상 떨어진 데이터의 비율은 1/36이하이다. Chevyshev Inequality는 아주 tight한 bound는 아니라서 실제로는 이 식으로 구해진 값보다 더 적은 데이터만 평균보다 k sigma 떨어져있다.
-
Machine Learning에 알아둘만한 몇가지 유용한 것들
http://www.kdnuggets.com/2012/09/pedro-domingos-useful-things-about-machine-learning.html 머신 러닝에 대한 folk knowledge가 정리된글. Communications of ACM글인데 링크된 곳에 무료 버젼도 링크도있습니다.
-
MAC용 다변량 분석 도구
Wizard for Mac 이라는 툴인데 꽤나 편해 보입니다. 아무래도 이런툴들은 R로도 쉽게 할수 있는 일을 해주는 것 뿐이지만 각종 분석 기법이 잘 정리되어 있고, 기법마다 관련된 시각화나 통계량이 역시 잘 정리되어있는게 강점입니다. 예를들면 ordered probit과 multinomial logit이 라디오 단추로 제공되는것처럼요.
-
Certification from ml-class.org
두번째 course.org로 부터 받은 certification. Machine Learning 분야에서 잘 알려진 Andrew Ng의 수업이었고, Octave도 잘 배워서 좋았습니다. 시간 좀 내서extra credit 프로그래밍도 다 마쳤더니 만점을 넘는 점수를 받았습니다. ml-class.org에서 8월 20일(미국시간기준)에 새 클래스가 열리니 관심있으신분은 수강신청하세요~.