-
Partial Least Square
http://en.wikipedia.org/wiki/Partial_least_squares_regression PCA 와 유사하지만 데이터의 분산만을 잡으려는 PCA와 달리 Y값까지 함께 고려해 orthogonal한 새로운 feature와 response들을 X, Y로 부터 만들고, 이로부터 수행하는 linear regression. 데이터에 비해 변수가 많을때 OLS(Ordinary Least Square)에 비해 유용함. Tutorial: http://en.wikipedia.org/wiki/Partial_least_squares_regression 책: http://www.maths.bath.ac.uk/~jjf23/LMR/
Tags:
-
전통적인 process viewer top 의 대체품 htop
요즘 늘어난 cpu 코어를 충분히 활용해보고자 멀티 프로세스, 멀티 쓰레드로 애플리케이션을 종종 돌리고 있습니다. 그런데 top 은 이럴때 시스템 전반의 상황을 쉽게 보기가 어렵더군요. 그래서 찾아보니 htop이란게 있네요. http://htop.sourceforge.net/에서 더 많은 스크린샷을 볼 수 있고, OSX라면 macports로 설치가능합니다. 안해봤지만 리눅스에서도 yum이나 apt-get으로도 쉽게 설치가능할 것입니다. 장점은 기본 동작이 코어별로 cpu load를 보여주는 것이고, top보다는 기본으로…
Tags:
-
Estimating time for training
Training time becomes an issue, esp., if someone is using complicated model like svm with huge data. When that happens, it’s critical to estimate when the training will end. I’ve written a simple R code to do that efficiently (in terms of time but not in terms of accuracy). Here’s the graph:
Tags:
-
확률 분포간의 관계
http://www.johndcook.com/distribution_chart.html 확률분포간의 관계. 정말 잘 정리되어있네요.
Tags:
-
My .tmux.conf
어쩌다보니 screen대신 이걸 쓰게 되었네요.
Tags:
-
SVM for iris in R
Here’s output.
Tags:
-
Installing Rattle on OSX
If you have trouble because of RGtk2 (e.g., it’s saying you don’t have gtk2.8.0 or higher while you have one already). If so, follow this procedure. (Note: Don’t use macports! It won’t work with RGtk2 properly.) Instead, install R from r-project.org. This is pretty much important. Don’t install R from macports. Install R from http://www.r-project.org/.…
Tags:
-
Random Projection for Dimensionality Reduction
Random projection in dimensionality reduction: Applications to image and text data This is really easy way of dimensionality reduction. Simply, multiply data with random matrix where is a random number from . If is a dxN dimension where d is very high dimension and N is the number of data and is a kxd dimension…
Tags:
-
Effect Size
It’s the Effect Size, Stupid http://en.wikipedia.org/wiki/Effect_size Statistical significance를 사용하여 두 그룹간의 차이를 검증할때에는 두 그룹간의 차이뿐만 아니라 샘플의 크기에도 영향을 받습니다. 왜냐하면 샘플의 크기가 커질수록 confidence interval 이 줄어들기 때문입니다. 또 어찌되었던지간에 statistical significance라는건 두 그룹간에 차이가 실제로는 없는데 우연히 차이가 발생할 확률로부터 계산하는데 이 값은 두 그룹간의 차이가 얼마나 큰가를 직접적으로 평가하는 것이 아닙니다.…
Tags:
-
SVM User Guide
Pretty much readable document on SVM: A User’s Guide to Support Vector Machines. It’s a doc posted on python based machine learning tools: PyML.
Tags: