Tag: machine learning

  • Foundation of vector retrieval

    Gemeni 가 1M 토큰 컨텍스트를 들고 나왔지만 잘 정리된 논문 같아서 읽어보았습니다. Pinecone의 research scientist 가 작성한 논문 Foundations of Vector Retrieval 입니다. 아래는 공부하면서 정리한 노트입니다. 35/203 Inner product은 데이터 전처리를 해주면 cosine similarity, Euclidean distance 와 같아져 그 둘의 일반화이다. 단 거리로서의 기준인 non negativity, coincidence (자기 자신이 자기 자신과 유사도가 가장 높은…

  • 메트릭에 근간한 개발

    구글이 공유한 머신 러닝의 첫번째 규칙은 “Don’t be afraid to launch a product without machine learning.” 이다. 이를통해 가장 먼저 메트릭을 정의하고, 동작하는 파이프라인을 만들고, 실패하고, 펑가하고, 개선할 수 있기 때문이다. Stripe의 머신 러닝 엔지니어인 Emmanuel Ameisen 역시 “ML is an iterative process where the fastest way to make progress is to see how a…

  • UMAP vs t-SNE

    t-SNE 는 고차원 공간의 점들을 저차원으로 투영시킬때, 고차원 점들간의 거리가 확률적으로 나왔다고 가정한 뒤 저차원 공간에서 점들간의 거리 역시 확률적으로 나왔다고 가정한 다음 두 확률 분포의 거리를 최대한 일치시킵니다. 결과적으로 먼건 멀게, 가까운건 가깝게, 그러나 hard decision은 아니고 확률적으로 한다는 것. 여기까지는 대충 수식보고 알겠는데 UMAP은 어렵다고 생각하던중 너무나 훌륭한 글이 있네요. https://pair-code.github.io/understanding-umap/ “UMAP constructs…