데이터 이론의 이단「정확한 데이터는 필요없다」

Tags:

http://zdnet.co.kr/news/column/hotissue/0,39024748,39131857,00.htm
http://en.wikipedia.org/wiki/Bayes%27_theorem

나이는 157세, 연봉은 1.41421356?
데이터 이론의 이단「정확한 데이터는 필요없다」

이 회사는 현재 ‘데이터 난수화(randomization)’로 불리는 고객 정보 데이터베이스 기법을 실험 중이다. 데이터 난수화를 사용하면 고객의 과거 구매기록이나 나이, 수입, 건강정보와 같은 데이터가 해독이 불가능한 난수화를 통해 변경된 채로 기업에 전송된다.

예를 들어 한 사용자가 온라인 쇼핑 사이트에 가입하면서 나이를 38세로 등록할 경우, 브라우저에 설치된 난수화 플러그인은 여기에 -25에서 112 사이의 임의의 숫자를 더한 후 이를 서버에 전송하는 것이다.

이때 더하고 빼는 확률을 정해놓으면 결국 암호화(?)된 데이터를 복호화할 수 있게된다.. 그것도 정확하지 않지만 확률을 맞추기때문에 상관없다..라는 것이군요.

원래 암호화의 가장 큰 문제는 암호화된 텍스트 상에서는 range search가 불가능하다, without mentioning accompanying encryption/decryption cost… 라는 것이죠.

어떤 값의 대소를 비교할 수 없으므로 당연히 암호화시켜서 저장해서는 마이닝도 할 수 없다..라는 것인데..

세상에, 이런 아이디어를 내다니!!!!

IBM 초천재!!!

Comments

2 responses to “데이터 이론의 이단「정확한 데이터는 필요없다」”

  1. wegra Avatar

    이게 IBM에서 처음 시작한 건지는 알 수 없다.
    찾아보니깐.. 2002년에 코넬 대학 사람이 쓴 논문이 ACM에 올라와 있던데.. ‘Randomization in Privacy Preserving Data Mining’.. 완전 같은 이론이지..

    아마 개념은 대학 연구소에서 나오고..
    IBM은 그 가능성을 높이 사 실제 상용화하기 위해 적극적인 투자를 하는 게 아닐까 싶다.

  2. 민구 Avatar
    민구

    응.. 그런가 보다.
    하지만 RDBMS의 시대를 연 System R이라는 것이 IBM의 리써치 센터에서 나온것처럼, 다른 분야와는 다르게 기업이 리드하는 것도 많다고 생각함..

Leave a Reply

Your email address will not be published. Required fields are marked *