Sampled softmax

Tags:

http://stackoverflow.com/questions/35241251/in-tensorflow-what-is-the-difference-between-sampled-softmax-loss-and-softmax-c

Vocabulary가 크다면 softmax를 모든 단어에 계산하는 비용이 크다. 이를 줄이기 위해 Target 이 아닌 단어 중 일부를 제거하고 마치 그 단어들이 처음부터 없었던 것처럼 softmax를 계산한다.

Udacity deep learning 강의 중 word embedding 구현 트릭으로 설명됨.