Log odds scale

bioinformatics 카테고리 만든 기념으로 뭐라도 씁니다. 사실, 중요한 것들은 여기에 안올리겠지만 (그런건 나 논문써야 되여.. ㅋㅋㅋ)서도..

alignment를 할 때 scoring matrix에서 왜 log odds scale이 많은가하는 내용인데요. 언젠가 기회가 닿으면 이런 용어도 설명할 일이 있겠죠. 여튼, odds score라는건 어떤 매칭이 발생할 확률/순전히 그게 우연으로 될 확률 입니다. 그리고 log odds라는건 이것의 log값이죠.

예를들어

ACGT
CCGA

가 각각 scoring matrix에서 2 -1 3 0 이란 score를 얻는다면 이들을 더하면 2-1+3+0=4 겠죠.

그럼 2^4=16배만큼 by chance로 substitute 된거보다 더 잘 substitute됐다는 겁니다.

여기서 덧셈이 log 를 사용했으므로 사실은 곱셈이고(각각의 확률을 곱하면 네 문자가 모두 변할 확률이죠?), log의 밑이 2 이므로 2^값배 가 된다는 거죠.. 근데 이렇게만 하면 살기가 편한데 실제로는 matrix에는 log odds에 x2 한 값을 적어놓습니다. 그 이유는 matrix에는 사실 정수만 넣어놓는데 0.5 같은 값은 정수화 하면 0이지만, 0.5가 0은 아니기 때문에 반올림하려고 그렇습니다.

그래서 실제로 위의 예는 2^(4/2)=4배 만큼 by chance보다 더 substitute 된다.. 이런 뜻입니다.

근데 항상 밑이 2일필요는 없고, 그냥 임의 base의 log 이기만 하면 됩니다.. 즉, log(확률/우연) 이렇게 되는건데, 왜 이렇게 하는가가 궁금하겠죠.. 이건 누군가가 어느 뛰어난분이 IR(Information Retrieval)쪽에서 이와 유사한 문제(아마 string set이 있을때 여기서 string 찾기문제에서)에서 log odds 형태의 것이 잘 맞는다고 theorem을 정립해 놓았다고 합니다.. 전 수학자가 아닌고로 그 증명까지 알고 싶진 않네요.

이렇게만 써 놓으면 무삼말인지 모르겠다고 하실지 모르지만, 사실 글 올리는건 알리기 위함도 있지만 제가 자꾸 까먹으니까 기록하려는 측면이 무척 많은고로.. ㅋㅋ

Similar Posts:

Post a Comment

Your email is never published nor shared.