Tag: software

  • 개인용 pc 를 서버로 사용한 안전한 원격 작업 실행

    클라우드를 사용할 때 한가지 장점은 보안이다. 인프라 보안을 책임져주는 부분도 있겠지만 개인 pc 를 사용할 때 대비 털려도 개인 파일이 탈취당하지 않는다는 장점이 있다. 코드와 데이터는 털리더락도 개인용 pc의 은행 인증서까지 해킹당하는 시나리오 보단 낫다. 그렇다면 개인용 pc 를 보다 안전하게 원격으로 사용하여 프로그램을 실행하는 방법은 무엇일까. 여기서 고려하는 시나리오는 저성능 랩탑 클라이언트로 코딩하고 원격지에…

  • Welcome to sktime — sktime documentation

    https://www.sktime.net/en/latest/ 타임 시리즈 머신 러닝 라이브러리

  • Reinforcement Learning library

    RL에는 쉽게 갖다 쓸 수 있는게 없나 궁금했었는데 stable baseline3 이라는게 있군요.

  • 개인 프로젝트에 머신러닝에 클라우드를 쓸때의 장단점

    지금은 조금 익숙해 졌지만, 예전에는 몰랐던 머신러닝을 위해 클라우드를 사용할 때 장단점에 대해 써보려고 합니다. 클라우드의 큰 장점은 머신을 구입할 초기 비용을 들일 필요 없이 고사양 서버를 가질 수 있다는 것입니다. 또한 서버를 둘 공간도 필요가 없이 서버를 24시간 언제든지 가동할 수 있습니다. 더욱이 그 서버는 언제든지 원하는 사양으로 업그레이드 가능한데 64기가 메모리에서 128기가 메모리로…

  • A way to optimize Modin DataFrame

    If Modin is slower than expected, first thing to check is NPartitions. Simply put, it’s the number of partitions along columns and the rows. Since most of data frame one would be handling will be large (otherwise, why would use ray?), it will result in many more partitions than the number of multiprocessing.cpu_count(). One way…

  • Self paced learning in ML

    Self paced learning 이란 curriculum learning (데이터를 특정 순서로 주면서 모델을 훈련시키는 방법)의 일종입니다. 잘 작동할 경우 모델이 더 적은 데이터로 더 좋은 성능을 내게 됩니다. 하지만 Curriculum learning 은 모델에 점차적으로 난이도가 높아지는 순서대로 데이터를 주는데 그러려면 데이터에 ‘난이도’라는 추가 레이블링 작업이 필요하게 됩니다. Self paced learning 은 model 이 현재 주어진 데이터를 얼마나…

  • 리모드 서버에 ssh private key를 저장하지 않으려면

    Agent forwarding 을 쓰면 됩니다. 그러면 매번 서버에 키를 만들지 않아도 되고 특히 서버를 믿지 못하는 경우 (남의 서버를 임대한다거나) 보안 문제를 피할 수 있습니다.

  • What to do when resource is exhausted in GCE

    If “resource is exhausted” and can’t start a VM instance for that reason, one way would be creating reservations. Downside of that is that it’s too costly since “Reservations are billed at the same rate as their reserved resources”. Instead, one can try creating the instance in other cells. For that, they need do these…

  • Auto shutdown idle gce instance

    There’s a few posts to do this on the net, but it looks like they miss some points, e.g., not resetting counts when a machine has been idle. This code is improved version. And then you can add it to your VM like this:

  • Timeseries dataset generation in tensorflow

    I find tf.keras.utils.timeseries_dataset_from_array difficult to use for the reasons like 1) it picks the first number in an array as y value (as opposed to the last), 2) it doesn’t allow to use multiple values as y. So I wrote a trivial code example that anyone can easily customize. In the code below, given [0,…