Tag: software

  • Modern password hashing algorithms

    I found these good articles on modern algorithms for password hashing: http://www.f-secure.com/weblog/archives/00002095.html suggest the following three: • PBKDF2 • Bcrypt • PBMAC Most notably, they are intended to be slow (so that bruteforce takes long time) and prevent rainbow table attack. http://www.openwall.com/phpass/ is php implementation to use bcrypt. Read http://www.openwall.com/articles/PHP-Users-Passwords for explanation. Here’s another article…

  • Javascript Design Patterns

    Essential JavaScript Design Patterns For Beginners by Addy Osmani is a minibook published online. Let me quote ‘Revealing Module Pattern’ code snippet which I find very neat. Compare it with module pattern. I really enjoyed reading it. In addition to the design pattern article, you may like to read my articles on some javascript patterns:…

  • Spearman Correlation

    Spearman’s rank correlation coefficient is a non parametric measure of statistical dependence between variables. Unlike Pearson correlation coefficient which assumes linear dependence, Spearman’s rank correlation does not have such assumptions. It uses the same formula to get the coefficient, but it uses ‘rank(position in the descending order)’ of x and y.

  • Parzen Windows

    Parzen Windows(wiki) is a non-parametric density estimation method given samples. Though the name sounds scary (it was, at least to me), it’s not that complicated algorithm. It just considers samples near x for computing p(x). For example, to compute p(x=1), it considers samples near it, e.g., 0, 3, 4 while it ignores samples far from…

  • Google Storage for Developers

    클라우드가 인기를 끌면서 사람들은 애플만 이야기하지만, 실은 구글에는 이미 Google Storage for Developers 같은 포텐셜 넘치는 서비스가 있죠. 과금도 벌써 정해져 있습니다. 클라우드의 핵심 역활중 하나는 이처럼 개발자나 사업자가 scalable하게 자신의 서비스를 발전시켜나갈 수 있다는 점입니다. 오늘 서비스를 런칭하고 내일 사용자가 몰려 서버가 죽어나갈필요 없이 간단히 최소의 비용으로 용량을 확대해 나갈 수 있는 것이죠. 몇년전만해도…

  • Scalable debugging

    Debugging in the (Very) Large: Ten Years of Implementation and Experience Paper on Windows Error Reporting(WER) system. It has interesting features like: 1) Automatic bucketing of error reports based on heuristics at client and server side; ideally, reports on one bug are assigned to one bucket. 2) Progressive data collection from minimal dump to full;…

  • Hotmail이 ×10 성능개선한 방법

    http://windowsteamblog.com/windows_live/b/windowslive/archive/2011/06/30/instant-email-how-we-made-hotmail-10x-faster.aspx 페이지 사이즈 줄이기, 캐싱, preloading, 비동기처리가 핵심이네요.

  • Kaggle – data prediction competition

    topcoder가 알고리즘 프로그래밍 경진대회라면 Kaggle은 데이터를 주고, 이를 잘 설명하는 모델을 만드는 대회입니다. 수십일 정도 기간이 주어지기도 하고, 지금 올라온 것 중엔 21개월 남은 것도 있네요. 상금도 준다는게 특이한데, 21개월 남은 병원 데이터 관련 내용인데 무려 상금이 3M$. 언젠가 저도 (등수에는 못들겠지만) 출전해보려고 합니다.

  • Reading : On Chomsky and the Two Cultures of Statistical Learning

    http://norvig.com/chomsky.html 얼마전 chomsky가 통계에 기반한 기계학습 기법을, 마치 꿀벌들이 움직이는 모습을 그 의미를 모른채 따라하는것과 같다고 비판하였습니다. (아시다시피 chomsky는 Universal grammar 라는 문법체계를 주장하죠)  그에 대해 peter norvig이 내놓은 답입니다. (역시 아시다시피 통계에 기반한 기계학습 전문가죠) 어느쪽이 옳은가에 앞서 어쨌든 흥미롭게 읽을만한 글입니다.  얼마전 올린 기계학습의 두 부류에 대한 논문과도 맣닿아있구요. 추천!

  • Some papers on Google technolgy

    Dremel: Interactive Analysis of Web-Scale Datasets Tool for analyzing lots of data in interactive way. Nested columnar storage is presented. Overlapping Experiment Infrastructure: More, Better, Faster Experimentation Experiment environment at Google. Bigtable: A Distributed Storage System for Structured Data Paper on bigtable. This is surely the best introduction on this topic.