Tanimoto coefficient


Jaccard index(Jaccard similarity coefficient)는 샘플 셋간의 유사성 측정. 두개의 셋 A, B가 있다고하면, 다음과 같이 정의.

J(A,~B)=\frac{|A \cap B|}{|A \cup B|}

A와 B가 binary attribute를 가진 object에 대한 벡터라면 다음과 같이 정해짐.




은 A가 n, B가 m을 가진 attribute의 개수. 주의할점은


는 분모에 포함 안된다는 거..

Tanimoto Coffecient는 Jaccard 의 continuous, count attribute를 위한 확장으로, binary attribute에 적용하면 그대로 Jaccard index가 되는 값.

T(A,~B)=\frac{A \bullet B}{|A|^2 + |B|^2 - A \bullet B}

continuous value일때 어떻게 될까를 신경쓰지 말고 이 식을 보면, binary attribute일 때 Jaccard index를 계산하는 식이라고 이해할 수 있다. 그래서 Tanimoto coefficient를 binary vector에 대한 similarity measure라고 이해하고 사용할 수 있음.

Comments

  1. agreen wrote:

    i am a PhD sudent in pharmaceutical biotech,and im going to have a presentation for my classmates in cheminformatics.i think tanimoto is realy useful.
    i was woundering if u”d mind giving me guid how to find a online service for calculating tanimoto coeffitient

    Posted 26 Dec 2007 at 3:38 pm
  2. MKSeo wrote:

    Hi agreen. Sorry for late response. And I’m afraid that I have no idea whether we have online service for computing Tanimono coefficient. Still, I’m pretty much sure you could write one or ask your CS major friend. It won’t be that hard. Thanks.

    Posted 10 Jan 2008 at 4:16 am
  3. wowzerjk wrote:

    A dot B 이건 머에여?

    Posted 06 Feb 2008 at 1:06 am
  4. mkseo wrote:

    벡터 2개 내적이얌..

    Posted 06 Feb 2008 at 9:55 am
  5. wowzerjk wrote:

    흐음. 그렇다면 아직 제가 벡터2개의 내적의 정확한 의미를 깨우치지 못한거네여 OTL, 그럼 한가지더 |A|^2 는 A를 자신에게 내적을 구한거겠죠. 음 Tanimoto Coffecient가 시스템쪽에서 적용해서 쓰기에 참 괜찮아보이는데 아직 의미가 몸에 와닿지가 않네여 ㅋㅋ

    Posted 10 Feb 2008 at 10:28 pm
  6. mkseo wrote:

    나도 continuous에서의 의미는 잘 안와닿아 ㅎㅎ

    Posted 12 Feb 2008 at 8:59 pm

