Benford’s Law
실 세상의 측정값은 많은 경우 exponentially grow하므로 측정치에 log값을 취한 값의 첫번째 자리의 분포는 uniform이다.
예를들어 주가가 현재 100이고 매년 20% 씩 상승한다면 주가는 100, 120, 144, 172.8, 207.36, 248.832, 298.5984, 358.81808, 429.981686, … 이 되고 이 첫자리들을 모으면 1, 1, 1, 1, 2, 2, 2, 3, 4, … 이 된다. 이 예에서는 1은 2보다 33% 더 많이 출현하였다. 이는 1과 2의 출현비율이 같을 것이라는 직관과는 다르다. (각 경우에 따른 자세한 출현회수 비는 링크된 위키에.)
Benford’s law는 사회학적 측정값들의 fraud detection에 사용될 수 있으며, 최근 이란사태 발발후 한 통계학자는 개표 결과가 Benford’s Law를 statistically significant하게 follow하지 않는다고 주장하였다.
Zipf’s Law
아무래도 컴퓨터 이야기하는 곳이니 방문자들에게 더 많이 알려진 법칙일거라 생각된다. 주어진 corpus에서 단어의 출현회수는 그 단어의 출현 빈도에 따른 등수의 역에 비례한다는 것이 Zipf’s Law.
예를들어 어떤 corpus에 the가 가장 많이 나오고 a가 두번째로 많이 나온다고 하자. 그러면 the의 등수는 1, a의 등수는 2. 이때 the의 출현횟수는 1/1 = 1에 비례하고 a의 출현횟수는 1/2=0.5에 비례한다. 따라서 the는 a보다 2배 더 많이 관찰된다는 것.