엔트로피

Tags:

entropy [ppt]

abraxsus의 entropy에 대한 comment에 대한 답글. 컴싸 지도교수 모임할때 했던 거. 별로 공개할 생각없었지만서도 올려봄. 오라일리에서나온 BLAST 책이 가장 쉬운 설명인 듯.

엔트로피를 이해하는데 핵심적인 내용은, 1) 열역학의 엔트로피랑 아무 상관없다, 2) 엔트로피=정보라고 설명하는 곳도 있지만, 사실 엔트로피는 ‘불확실성의 감소 정도’를 의미하는 것일 듯 하네요. 그렇지만 섀넌의 경우와 달리 대부분의 애플리케이션에선, 만약 어떤 심볼을 보았을 때 그 심볼을 보았다는 사실이 명확하므로 엔트로피가 결국 정보라고 이야기되는 것인 듯. 반대로 섀넌의 경우엔 노이즈 채널을 가정하였으므로 현재의 불확실성을 제로라고 말할 수 없음. 어쨌든, 이런 배경으로 인해 엔트로피가 곧 정보라고 설명하는 곳이 많은 듯합니다. 그리고 그것이 이해를 어렵게하는 중요 요인..

음, 그리고 abraxsus가 말한 리눅스의 경우는 대단히 흥미롭군요ㅎㅎ

Comments

12 responses to “엔트로피”

  1. abraxsus Avatar

    Good! 잘 봤다. 이미 훑었었구나.. ㅎㅎ
    그리고 그 BLAST라는 책 혹시 가지고있냐? 한번 봐야겠구나..사야하나..
    그리고 엔트로피가 정보라는건 오해같고, 내가 대충 파악한바로도
    uncertainty의 정도라고 파악이 된다. 정말 매력적인 개념이다!
    좀더 살펴봐야겠다. 이 개념으로 랜덤의 정도를 측정할수 있지 않을까..
    좀더 개념이 잡히면 다시 얘기하자..ㅎㅎ
    그리고, 리눅에서 엔트로피를 일정하게가 아니라, 일정수준이상으로 유지하면서
    랜덤풀을 유지하는거다.. 엔트로피가 클수록 좋은거지.. 좋은 랜덤성을 보인다는거니까..

  2. MKSeo Avatar
    MKSeo

    그러니까.. 엔프로피를 높게 한다는건 아마도 – 나 솔직히 엔트로피를 완전히 이해하진 못했지만 – uniform distribution에 최대한 가깝게 해준다에 불과하단거지. 우리가 흔히 ‘랜덤하다’고 말할때의 그 무작위성 (가령 1,2,3,4,… 대신 3,2,1,5,6,…)을 측정하는데는 사용할 수 없음.

    BLAST는 음냐 riss4u.net 가입한다음에 초기화면의 해외 eBook 원문 클릭하면 사파리 온라인 나오는데 거기에 있어. 오라일리를 비롯한 수많은 이북이 공짜. 사람들 의외로 잘 모르더라;;;;

    음 그리고 엔트로피 이건 확률모델 만들때 나오는거라 – 그리고 AI가 확률빼면 시체니까 – 대충 무슨말인지만 봤었음;;

  3. MKSeo Avatar
    MKSeo

    아 물론 Shannon 의 논문도 출력하였으나, 몇장걷어보고 바로 포기. ㅎㅎ 전자과아니면 못볼거 같던데;;;

  4. abraxsus Avatar

    ㅎㅎ.. 그 사파리인가 거기군.. 예전에 북마크해두고는 안가봤다..
    그리고 나도 논문 출력해볼까하다가 같은 이유로 접었다..ㅎㅎ
    당연하지.. 그쪽 논문은 몇장보지도 못해.. ㅠㅠ.. 우린 단지 우리의 field에서 접근할뿐..
    그리고 다음주 화요일저녁으로 내려갈까 하는데 어때.. 25일. ㅋ

  5. abraxsus Avatar

    내 생각에는..일단 이 엔트로피는, 혹은 이 수식은,
    수열들의 배열에는 관심이 없어.. 식을 보면 알듯이 어떤 심볼이 얼마의 빈도로 나타나는가만
    관심이 있는거지.. 그래서 1,2,3,4,5던지 이게 마구섞여있던지 정보의 양은 같다는거고..
    (일단 우리의 랜덤성에 대한 얘기는 차치하고…)
    그래서 이 엔트로피는 정보의 양을 측정하는데,
    이 정보라는게 우리가 일반적으로 생각하는 정보라기 보다, 딱 봤을때 얼마나 많은 세세한
    정보들을 담고 있는가 하는거지.. ee쪽 얘기로 하자면 얼마나 많은 고주파성분들이 있는가를
    측정하는거.. 즉 fidelity 를 측정하는거같아.
    즉 정보들이 혼란스럽게 흩어져있어서 예측이 어렵다는거지.. 그게 어려울수록 정보가많다고
    얘기할수 있는거고,
    AAAAA라고 있다면 보는순간 A가 5개네.. 이러면 끝나니까, 정보의 양이 적은거고
    AAABB정도도 A3B2 하면 정보의 양이 팍 줄지..
    하지만 ABCDEF이러면 더이상 압축하기가 어렵지.. 정보의 양이 많으니까..
    즉 압축이 잘된다는건 정보의 양이 적다는거고 (plain text처럼) 반대로 잘 안된다는건
    정보의 양이 많다는거지.. 결국 섀넌 엔트로피는 이렇듯 본질적인 정보의 양
    (압축을 최대한 했다고볼때의, 정보의 손실이 없게 최대한 압축했을때의 양이라고나할까)
    을 나타내는 측도라고 생각된다.
    이걸 continuous signal쪽에서 본다면 딱 고주파성분이 얼만큼이냐..하는 얘기가 되지..
    암튼 우리 discrete세상에서 볼땐 균일하지 않고 삐죽삐죽한것들이 뽑혀나오는,
    uniform distribution에 얼마나 가까운지를 나타낸다고 볼수있겠다.
    이런 sequence의 순서를 차치하고 생각한다면, 이건 random에 대한 훌륭한 측도가
    될수 있고 최소한 random성의 필요조건은 된다고 생각되네..
    이제 이것들을 어떻게 잘 섞냐는것만 잘 해결하면 훌륭한 랜덤이라고 생각된다.

  6. abraxsus Avatar

    즉 위의 예에서 AAAAA를 마구 섞어놓고 아무거나 뽑았을때 예측해봐..그러면 다들 A라고
    얘기할테니 재미없자나.. 정보가 없다는거고, AAABB에서 암거나 뽑아보고 예측해보라면
    많이들 맞출테니까.. 또 재미없지.. 역시 그 안에 정보가 별로 없다는 거고..
    ABCDE는 반대로 맞추기가 어려우니까 정보가 많다는거고… 말되자나.
    그래서 이름도 엔트로피! 이름 걸작인데.. 물론 열역학의 엔트로피와는 관련이 없지만
    기본 개념은 일맥상통하네.. 이리저리 흩어져있다는거지.. 무질서도..
    따라서 무엇이 랜덤이다라고 할때, 그 예측이 어렵다는것은 당연히 조건이 되어야할테고,
    결국 엔트로피가 높다는 얘기다..

    즉 엔트로피가 높다는건 다음녀석을 뽑았을때 그거 뭘지 도대체 예측하기 어렵다는거고
    그건 uniform distribution에 가깝다는거고, 얼마나 가까운지를 측정하는게 이 엔트로피이고,
    그건 자연스레 한녀석당 몇개의 비트가 필요할지를 나타내는것으로 측정되는거지..
    비슷비슷한놈들만 있으면 당삼 비트 몇개면 될것인데 다양하게 모여있으면 비트가 많아지니까..
    이건 곧 압축이라는게 엔트로피를 확 올려버리는 작업이라는걸 뜻하고
    왜 압축한걸 다시 압축하면 압축이 잘 안되는지를 설명하지.. 엔트로피가 너무 높거든..
    즉 압축하면 랜덤성이 좋아진다는거지.. security에서 압축을 좋아하는 이유가 설명되지..
    등등.. 정보에 대한 아주 본질적인 개념이라는것엔 틀림없구나…ㅎㅎ
    심지어는 생명은 곧 정보라는 현대의 생명론까지 이야기는 이어질수 있다..-_-;;
    생명현상이 엔트로피를 낮추는 작업이라는 얘기까지… 심오한 이야기는 이어진다-_-;;

  7. 민구 Avatar
    민구

    어떤 확률모델을 갖다 쓰는가에따라서 1,2,3,4,5가 3,1,2,4,5와 같은 엔트로피를 갖는지 아닌지 달라질 거 같은데? 간단한 P(A|B)같은 형태를 만들고 (즉 bigram) 이를 확률 모델로 만들어 파라메터를 뽑아내면 전자는 그다음이 6인것이 확실히 나올테니까.

    물론 식 자체에 확률 모델의 형태에 대해 가정하진 않았지만 아무튼 실제 애플리케이션에서는 확률 모델을 갖고 얘기하니까..

    아무튼.. 전부터 생각하던건데 여기에 대해서 더 이야기를 하려면 random에 대해 정의부터 하고 지나가야하는거 같은데. 내 생각엔 1) uniform distribution을 따른다, 2) 예측하기 어려운 형태로 값이 출현한다정도가 될 듯. 하지만 taocp에 보니까 또 챕터가따로 있더라구 ㅎㅎ 그래서 섯불리 말하는 것을 꺼려왔음;;

    근데 요즘은 사실 딴 책 (Programming Pearls) 보느라 랜덤은 약간 시들해졌다. 더구나 linear congruential method, f(n+1)=(a*f(n) + b) mod c, 가 주로 쓰이는데다가 a,b,c 파라미터 결정을 잘~ 해서 쓴다는 정도가 끝인 분야인거 같아서 말이지..

    또다른 관심사는 무한자리수를 갖는 정수의 곱셈과 나눗셈 빨리하기 정도? ㅋㅋㅋ 언젠가 들여다보려고 생각은 하는데 아까 말한 그 딴책 보다보니;;

  8. abraxsus Avatar

    오. riss4u.net 좋은걸.
    BLAST책이
    By Joseph Bedell, Ian Korf, Mark Yandell
    에 의한거 맞냐.. bioinformatics관련된거 가튼데
    엔트로피에 대한 내용을 못찾겠다..어느 챕터에 잇는거냐..
    뭐 pseudo random에 대한 내용은 a,b,c잘 골라서 쓴다..정도면 끝인거 같다-_-;

  9. MKSeo Avatar
    MKSeo

    theory -> sequence similarity에 있음 ㅎㅎ

  10. abraxsus Avatar

    thanx. 이거 파내려가면 끝이 없겠네..
    너가 예전에 얘기하던게 마르코프 체인이 맞지?
    뭐 이분야저분야 다 튀어나오네-_-;;
    섀넌 그 아저씨 참…-_-;;;

  11. abraxsus Avatar

    http://shannon.kaist.ac.kr/choe/Articles/
    여기 가봤나? 수학과에 계시네.. 랜덤이나 엔트로피에 대한 짧은 얘기들이 있다.
    구글에서 섀넌 엔트로피 하니까 이 페이지가 젤 위에 뜨네.
    헐헐..
    그리고 또한번 느끼지만, 언제 한번 압축을 훑어봐야겠다..
    아마 이 엔트로피때문인지 섀넌 이 아저씨가 또 압축의 기초이론을 세웠다고하는군..컹..
    안한게 머야-_-;;

  12. MKSeo Avatar
    MKSeo

    응 은닉 마르코프체인 ㅋㅋ 진짜 별거아님 알고보면 그것도.
    수학과 교수님 홈피 멋지다…
    글도 보면 다 최근글이더라.

Leave a Reply

Your email address will not be published. Required fields are marked *