Term의 분포

Tags:

Heaps law
코퍼스내 unique term의 수는 (문서의 길이)^b 에 비례. b는 보통 0.4-0.6사이의 수

Zipf’s Law
어떤 term의 빈도는 term빈도에따라 term들을 나열했을때의 랭킹에 반비례