http://en.wikipedia.org/wiki/Jaccard_index
Jaccard index(Jaccard similarity coefficient)는 샘플 셋간의 유사성 측정. 두개의 셋 A, B가 있다고하면, 다음과 같이 정의.
J(A,~B)=\frac{|A \cap B|}{|A \cup B|}
A와 B가 binary attribute를 가진 object에 대한 벡터라면 다음과 같이 정해짐.
J(A,~B)=\frac{M_{11}}{M_{10}+M_{01}+M_{11}}
여기서
M_{nm}
은 A가 n, B가 m을 가진 attribute의 개수. 주의할점은
M_{00}
는 분모에 포함 안된다는 거..
Tanimoto Coffecient는 Jaccard 의 continuous, count attribute를 위한 확장으로, binary attribute에 적용하면 그대로 Jaccard index가 되는 값.
T(A,~B)=\frac{A \bullet B}{|A|^2 + |B|^2 - A \bullet B}
continuous value일때 어떻게 될까를 신경쓰지 말고 이 식을 보면, binary attribute일 때 Jaccard index를 계산하는 식이라고 이해할 수 있다. 그래서 Tanimoto coefficient를 binary vector에 대한 similarity measure라고 이해하고 사용할 수 있음.