Vocabulary가 크다면 softmax를 모든 단어에 계산하는 비용이 크다. 이를 줄이기 위해 Target 이 아닌 단어 중 일부를 제거하고 마치 그 단어들이 처음부터 없었던 것처럼 softmax를 계산한다.
Udacity deep learning 강의 중 word embedding 구현 트릭으로 설명됨.
Tags:
Vocabulary가 크다면 softmax를 모든 단어에 계산하는 비용이 크다. 이를 줄이기 위해 Target 이 아닌 단어 중 일부를 제거하고 마치 그 단어들이 처음부터 없었던 것처럼 softmax를 계산한다.
Udacity deep learning 강의 중 word embedding 구현 트릭으로 설명됨.