word2vec in tensorflow
공부하면서 참고한 자료들 올려봅니다. Tensorflow tutorial word2vec_basic.py에 대한 주석붙인 설명 CBOW와 Skip-gram의 차이 Xin Rong, word2vec Parameter Learning Explained. Context word가 여러개일때 어떻게 훈련하는가. 결론은 입력도 출력도 평균을 사용한다는 것.
Playing go
인공지능 바둑에 대한 글들을 모아보려합니다. The Grand Challenge of Computer Go: Monte Carlo Tree Search and Extensions
LeNet-5, convolutional neural networks LeNet-5 is our latest convolutional network designed for handwritten and machine-printed character recognition. See LeNet 5 architecture diagram.
Optimization algorithms
다양한 알고리즘의 동작 모습 Visualizing Optimization Algos
Changing numpy array dimension: from 1d to 2d
Method 1. Using [np.newaxis]. Method 2. Using None. Method 3. Using reshape. Method 4. Using expand_dims.
Image dataset for deep learning
http://mscoco.org/ Microsoft COCO is a new image recognition, segmentation, and captioning dataset. Crowd sourcing 으로 caption data 구축한다고 합니다.
Sampled softmax
http://stackoverflow.com/questions/35241251/in-tensorflow-what-is-the-difference-between-sampled-softmax-loss-and-softmax-c Vocabulary가 크다면 softmax를 모든 단어에 계산하는 비용이 크다. 이를 줄이기 위해 Target 이 아닌 단어 중 일부를 제거하고 마치 그 단어들이 처음부터 없었던 것처럼 softmax를 계산한다. Udacity deep learning 강의 중 word embedding 구현 트릭으로 설명됨.
Test set의 크기는 얼마이어야 할까
Udacity deep learning 강의 중에 나온 제안. 차이는 30개 정도를 보면 유의하다고 말할 수 있다. 보통 소수점이하 첫번째자리까지 classifier performance 차이를 검출하고자하므로 0.1% 차이가 30개 test data를 바꾸게 해야함. 따라서 적절한 테스트 데이터 크기는 30,000이다. 왜냐하면 30,000 × 0.001 = 30이므로. 물론 이는 통계적으로 엄밀한 접근은 아니긴합니다.
R의 이상한 코딩 컨벤션 FAQ
Rbitrary Standards R 코드의 특이한 점들에 대한 FAQ. 예를들어
Variational bound
Wake sleep algorithm에 나오는 용어라서 설명을 찾아둠. High level explanation of variational inference Problem: (1) Given an input x, the posterior probability distribution over outputs y is too complicated to work with. Or (2) Given a training corpus x, the posterior probability distribution over parameters y is too complicated to work with. Solution: Approximate that…