Tanimoto coefficient

Tags:

http://en.wikipedia.org/wiki/Jaccard_index

Jaccard index(Jaccard similarity coefficient)는 샘플 셋간의 유사성 측정. 두개의 셋 A, B가 있다고하면, 다음과 같이 정의.

J(A,~B)=\frac{|A \cap B|}{|A \cup B|}

A와 B가 binary attribute를 가진 object에 대한 벡터라면 다음과 같이 정해짐.

J(A,~B)=\frac{M_{11}}{M_{10}+M_{01}+M_{11}}

여기서

M_{nm}

은 A가 n, B가 m을 가진 attribute의 개수. 주의할점은

M_{00}

는 분모에 포함 안된다는 거..

Tanimoto Coffecient는 Jaccard 의 continuous, count attribute를 위한 확장으로, binary attribute에 적용하면 그대로 Jaccard index가 되는 값.

T(A,~B)=\frac{A \bullet B}{|A|^2 + |B|^2 - A \bullet B}

continuous value일때 어떻게 될까를 신경쓰지 말고 이 식을 보면, binary attribute일 때 Jaccard index를 계산하는 식이라고 이해할 수 있다. 그래서 Tanimoto coefficient를 binary vector에 대한 similarity measure라고 이해하고 사용할 수 있음.