Tag: machine learning

  • plotly and drawing multiple lines in a single figure

    I started using plotly. It renders a nice looking chart by default and interactive. With some efforts, one can return json in the server to render it via js. Another benefit is that charts can be merged. It’s very useful in rendering two different lines, e.g., trainig data + test data in a single chart.…

  • Outlier, drift detection

    I learned alibi-detect today and it looks great. It has many algorithms for outlier and drift detection. The page even has a link for youtube video that explains drift detection.

  • Two interesting cross validation in scikit learn

    Scikit is excellent esp when considering these advanced tools. One is calibrated classifier cv. It tries to match model’s probability with the actually observed probability. The other is TunedThresholdClassifierCV yet another interesting cv. If application requires different scores, e.g.  F1,  one can tune the decision threshold using it.

  • Getting a probability given a prediction score

    Platt scaling is a method to scale score to probability. It uses logistics transformation with some learable parameters. What’s interesting is the use of laplace smoothing (or, uniform prior) to avoid overfitting.

  • Conformal prediction for dummies

    Here I’m writing the simplest form of the concept so that anyone can quickly get the idea. If you want a serious post, read paper or other blog article. This isn’t for you. Conformal prediction outputs range for regression and multiple lables for classifications. Its purpose is to have output contains the correct answer for…

  • Foundation of vector retrieval

    Gemeni 가 1M 토큰 컨텍스트를 들고 나왔지만 잘 정리된 논문 같아서 읽어보았습니다. Pinecone의 research scientist 가 작성한 논문 Foundations of Vector Retrieval 입니다. 아래는 공부하면서 정리한 노트입니다. 35/203 Inner product은 데이터 전처리를 해주면 cosine similarity, Euclidean distance 와 같아져 그 둘의 일반화이다. 단 거리로서의 기준인 non negativity, coincidence (자기 자신이 자기 자신과 유사도가 가장 높은…

  • 메트릭에 근간한 개발

    구글이 공유한 머신 러닝의 첫번째 규칙은 “Don’t be afraid to launch a product without machine learning.” 이다. 이를통해 가장 먼저 메트릭을 정의하고, 동작하는 파이프라인을 만들고, 실패하고, 펑가하고, 개선할 수 있기 때문이다. Stripe의 머신 러닝 엔지니어인 Emmanuel Ameisen 역시 “ML is an iterative process where the fastest way to make progress is to see how a…

  • UMAP vs t-SNE

    t-SNE 는 고차원 공간의 점들을 저차원으로 투영시킬때, 고차원 점들간의 거리가 확률적으로 나왔다고 가정한 뒤 저차원 공간에서 점들간의 거리 역시 확률적으로 나왔다고 가정한 다음 두 확률 분포의 거리를 최대한 일치시킵니다. 결과적으로 먼건 멀게, 가까운건 가깝게, 그러나 hard decision은 아니고 확률적으로 한다는 것. 여기까지는 대충 수식보고 알겠는데 UMAP은 어렵다고 생각하던중 너무나 훌륭한 글이 있네요. https://pair-code.github.io/understanding-umap/ “UMAP constructs…