Tanimoto coefficient

Tags:

http://en.wikipedia.org/wiki/Jaccard_index

Jaccard index(Jaccard similarity coefficient)는 샘플 셋간의 유사성 측정. 두개의 셋 A, B가 있다고하면, 다음과 같이 정의.

J(A,~B)=\frac{|A \cap B|}{|A \cup B|}

A와 B가 binary attribute를 가진 object에 대한 벡터라면 다음과 같이 정해짐.

J(A,~B)=\frac{M_{11}}{M_{10}+M_{01}+M_{11}}

여기서

M_{nm}

은 A가 n, B가 m을 가진 attribute의 개수. 주의할점은

M_{00}

는 분모에 포함 안된다는 거..

Tanimoto Coffecient는 Jaccard 의 continuous, count attribute를 위한 확장으로, binary attribute에 적용하면 그대로 Jaccard index가 되는 값.

T(A,~B)=\frac{A \bullet B}{|A|^2 + |B|^2 - A \bullet B}

continuous value일때 어떻게 될까를 신경쓰지 말고 이 식을 보면, binary attribute일 때 Jaccard index를 계산하는 식이라고 이해할 수 있다. 그래서 Tanimoto coefficient를 binary vector에 대한 similarity measure라고 이해하고 사용할 수 있음.

Comments

6 responses to “Tanimoto coefficient”

  1. agreen Avatar
    agreen

    hi
    i am a PhD sudent in pharmaceutical biotech,and im going to have a presentation for my classmates in cheminformatics.i think tanimoto is realy useful.
    i was woundering if u”d mind giving me guid how to find a online service for calculating tanimoto coeffitient
    regards
    rasekhian
    m-rasekhian@pasteur.ac.ir

  2. MKSeo Avatar
    MKSeo

    Hi agreen. Sorry for late response. And I’m afraid that I have no idea whether we have online service for computing Tanimono coefficient. Still, I’m pretty much sure you could write one or ask your CS major friend. It won’t be that hard. Thanks.

  3. wowzerjk Avatar
    wowzerjk

    A dot B 이건 머에여?

  4. mkseo Avatar
    mkseo

    벡터 2개 내적이얌..

  5. wowzerjk Avatar
    wowzerjk

    흐음. 그렇다면 아직 제가 벡터2개의 내적의 정확한 의미를 깨우치지 못한거네여 OTL, 그럼 한가지더 |A|^2 는 A를 자신에게 내적을 구한거겠죠. 음 Tanimoto Coffecient가 시스템쪽에서 적용해서 쓰기에 참 괜찮아보이는데 아직 의미가 몸에 와닿지가 않네여 ㅋㅋ

  6. mkseo Avatar
    mkseo

    나도 continuous에서의 의미는 잘 안와닿아 ㅎㅎ

Leave a Reply

Your email address will not be published. Required fields are marked *