Passion is like genius; a miracle.

Blog on Software, Statistics, and Quant

Tag: software

  • Welcome to sktime — sktime documentation 타임 시리즈 머신 러닝 라이브러리

  • Reinforcement Learning library

    RL에는 쉽게 갖다 쓸 수 있는게 없나 궁금했었는데 stable baseline3 이라는게 있군요.

  • Weighted Categorical Cross Entropy in Keras

    It took me a while until I find where the weighted categorical cross entropy is in the Keras. It’s actually supported by CategoricalFocalCrossentropy. If you set gamma=0 and give alpha=[… list of class weight …], it becomes the weighted one. Since you’re looking for weighted one probably due to class imbalance, I suggest to look…

  • 개인 프로젝트에 머신러닝에 클라우드를 쓸때의 장단점

    지금은 조금 익숙해 졌지만, 예전에는 몰랐던 머신러닝을 위해 클라우드를 사용할 때 장단점에 대해 써보려고 합니다. 클라우드의 큰 장점은 머신을 구입할 초기 비용을 들일 필요 없이 고사양 서버를 가질 수 있다는 것입니다. 또한 서버를 둘 공간도 필요가 없이 서버를 24시간 언제든지 가동할 수 있습니다. 더욱이 그 서버는 언제든지 원하는 사양으로 업그레이드 가능한데 64기가 메모리에서 128기가 메모리로…

  • A way to optimize Modin DataFrame

    If Modin is slower than expected, first thing to check is NPartitions. Simply put, it’s the number of partitions along columns and the rows. Since most of data frame one would be handling will be large (otherwise, why would use ray?), it will result in many more partitions than the number of multiprocessing.cpu_count(). One way…

  • Self paced learning in ML

    Self paced learning 이란 curriculum learning (데이터를 특정 순서로 주면서 모델을 훈련시키는 방법)의 일종입니다. 잘 작동할 경우 모델이 더 적은 데이터로 더 좋은 성능을 내게 됩니다. 하지만 Curriculum learning 은 모델에 점차적으로 난이도가 높아지는 순서대로 데이터를 주는데 그러려면 데이터에 ‘난이도’라는 추가 레이블링 작업이 필요하게 됩니다. Self paced learning 은 model 이 현재 주어진 데이터를 얼마나…

  • 리모드 서버에 ssh private key를 저장하지 않으려면

    Agent forwarding 을 쓰면 됩니다. 그러면 매번 서버에 키를 만들지 않아도 되고 특히 서버를 믿지 못하는 경우 (남의 서버를 임대한다거나) 보안 문제를 피할 수 있습니다.

  • What to do when resource is exhausted in GCE

    If “resource is exhausted” and can’t start a VM instance for that reason, one way would be creating reservations. Downside of that is that it’s too costly since “Reservations are billed at the same rate as their reserved resources”. Instead, one can try creating the instance in other cells. For that, they need do these…

  • Auto shutdown idle gce instance

    There’s a few posts to do this on the net, but it looks like they miss some points, e.g., not resetting counts when a machine has been idle. This code is improved version. And then you can add it to your VM like this:

  • Timeseries dataset generation in tensorflow

    I find tf.keras.utils.timeseries_dataset_from_array difficult to use for the reasons like 1) it picks the first number in an array as y value (as opposed to the last), 2) it doesn’t allow to use multiple values as y. So I wrote a trivial code example that anyone can easily customize. In the code below, given [0,…