Tag: software

  • Data Mining Map

    http://chem-eng.utoronto.ca/~datamining/dmc/data_mining_map.htm 마이닝 알고리즘이 정말 잘 분류가 되어있네요. 알고리즘 적용시에 체계적으로 접근하는데 매우 유용할듯.

  • Unbiased estimators and consistent estimators

    http://www.johndcook.com/bias_consistency.html Unbiased: estimate theta multiple times, then their expected average is the parameter of population. Consistent: estimator converges to parameter of the population as the sample size got bigger.

  • PhoneGap

    http://www.phonegap.com/about/ 아니 이런 쿨한 녀석이 있군요. 자바스크립트로 네이티브 api불러가며 코딩한뒤 다수의 모바일 폰에 deploy!

  • Data Modeling vs Algorithmic Modeling

    Statistical modeling: The two cultures I like review articles esp. because I’m still learning machine learning & statistics. This article discussed the reason why the author thinks statistics didn’t play much role in machine learning. Here’s author’s arguments in the article which I think interesting to read: 1) Standard tests of goodness-of-fit did not reject…

  • Document Similarity and Containment

    On the Resemblance and Containment of Documents Very popular article on document similarity and containment (Cited 528 times according to Google). For similarity, minhash I’ve already posted here is discussed. For containment (document A is contained in B), authors suggest to extract shingles which satisfies 0 mod m, i.e., shingles whose remainder is zero when…

  • Introducing CityHash – Google Open Source Blog

    http://google-opensource.blogspot.com/2011/04/introducing-cityhash.html 기존 알고리즘보다 최대 두배빠른 string hash.

  • Concurrency는 왜 중요한가

    http://www.gotw.ca/publications/concurrency-ddj.htm Moore의 법칙은 한계에 도달할 것이며 이미 clock speed의 향상이 느려지고 있다. CPU개발자들은 이제 cache 또는 multicore에 의존한 성능 향상을 노리고 있으며, 이에따라 기존의 single thread, single process에 기반한 프로그래밍은 한계에 도달할 것이다. 90년대에 OOP가 구조적 프로그래밍을 대체하였듯이, 마찬가지로 concurrent programming이 기존의 패러다임을 대체하게 될것이다. 더구나 다른 하드웨어(네트워크, 디스크)보다 CPU가 더 빨리 성능 한계에 도달하고…

  • Extracting article text from HTML documents

    트위터나 페이스북이 이제 RSS 리더의 기능을 대체해나가면서 (물론 digg나 reddit, hacker news, /. 도 점차 대체해나가겠죠), FlipBoard(share된 링크로부터 웹사이트의 컨텐츠를 정리해서 보여줌), Readability, Instapaper 같은 앱/웹앱이 히트를 치면서, 몇몇 사람들은 이미 깨닫기 시작한 변화 중 한가지는 이제는 더이상 제공되는 RSS를 통하지 않아도 웹페이지에서 컨텐츠를 분석해서 보여줄 수 있게 되었다는 점입니다. 이런 민간인(?)은 잘 모르는 서비스…

  • JavaScript ( (__ = !$ + $)[+$] + ({} + $)[_/_] +({} + $)[_/_] )

    http://adamcecc.blogspot.com/2011/01/javascript.html 자바스크립트에서 xss 블랙리스팅을 bypass 하는 테크닉입니다. 온갖 종류의 security hole이 새로이 오픈되는듯…

  • Multiple Comparison (or Multiple Testing) Issue

    http://en.wikipedia.org/wiki/Multiple_comparisons One practical example of this. Suppose that you compare search quality of two search engines multiple times: one is good engine while the other is bad. If you compare good engine and bad engine multiple times, you’ll observe bad wins in a comparison simply by accumulated statistical testing errors while it loses for 99…