Term의 분포

Heaps law
코퍼스내 unique term의 수는 (문서의 길이)^b 에 비례. b는 보통 0.4-0.6사이의 수

Zipf’s Law
어떤 term의 빈도는 term빈도에따라 term들을 나열했을때의 랭킹에 반비례

Similar Posts:

Comments 2

  1. self wrote:

    링크를 읽어보니 Heap’s law에서 문서의수가 아니라 문서의 길이가 되어야 맞는 것 같습니다. 감사합니다.

    Posted 18 Jul 2013 at 2:31 pm
  2. Minkoo Seo wrote:

    그렇군요. 제가 좀 부정확하게 정리를 했네요.. 수정했습니다. 감사드려요~

    Posted 22 Jul 2013 at 2:30 am

Post a Comment

Your email is never published nor shared.