• keras의 timeseries_dataset_from_array 사용시 주의할 점

    timeseries_dataset_from_array 에 대한 github issue 예를들어 X=[1, 2, 3], y=[2, 3, 4] 일때 sequence_length=2 라면 X=[1, 2], y=[3] 이 올거라고 생각하지만 아니다. y=[2]가 옴. 다시말해 y는 x 의 시작점의 값임. 간단하게는 y를 shift 해서 호출하면 해결되지만 API에 이런 점이 있다는걸 놓치기 너무 쉽다. 이슈가 그냥 닫혀버려서 더욱 아쉬움.

  • Google Cloud Workstation vs Codespace

    https://cloud.google.com/workstations?hl=ko#section-7 구글 클라우드 워크스테이션이란 서비스가 ec2 보다 ide 연결해서 쓰기는 훨씬 좋아보입니다. 유휴 시간이 길어지면 자동 종료로 비용 절약하고, 종료뒤 재시작시에는 보안 패치등이 잘 적용된 최신 이미지로 실행됩니다. 홈 디렉토리는 종료와 상관없이 유지됩니다. 다만 gcp 를 직접 사용하는 경우 대비 비용은 높고 (e2 기준 약 2배?) 현재까진 gpu 인스턴스는 없습니다. 비슷한 서비스로 github codespace가 있습니다.…

    Tags:

  • MASE, RMSSE

    MAE, RMSE를 scale. Scale 시 이전 예측값으로 미래를 예측하는 방법 사용.

  • STR (Seasonal Trend decomposition using Regression)

    https://robjhyndman.com/publications/str/

  • Theta Model

    시계열을 분할한뒤, 분할된 요소를 각각 예측하고 다시 결합 https://towardsdatascience.com/theta-model-for-time-series-forecasting-642ad1d00358

  • HP filter

    wikipedia article on hp filter Timeseries에서 좀더 장기적인 추세를 반영하도록 cyclical components 를 제거하는 시계열을 분할 기법으로, 거시경제에서 자주 사용한다고 합니다. y = trend + cyclical + error 라고 할 때 trend를 y와의 차가 작으면서 trend가 급격하게 변하지 않도록 정합니다. 모델이 늘 그렇듯이 비판도 다양하고, 그 중 하나는 one time shock 이 반영되기 어렵다는 점입니다.…

    Tags:

  • Label Smoothing

    Regularization 방법중에 하나로 소개가 되어있길래 찾아봤습니다. https://blog.si-analytics.ai/21 에 잘 정리가 되어있네요. 간단하게 말하면 실제 레이블이 0, 1, 2 중에 1이라고 할때 one hot encoding하듯이 0, 1, 0으로 레이블을 주지말고 0.25, 0.75, 0.25정도로 주는 방법입니다. 직관적으로 생각해도 이렇게되면 regularization 효과는 잘 나타나겠네요. 결국 레이블간 서로 구분이 좀 더 뚜렷하게(?), 그러니까 더 smooth 한 boundary 형태로 분류하는…

  • 주가 regression에 어떤 metric을 써야할까

    MSE, RMSE 등은 오차가 커질수록 크게 penalty를 준다. 따라서 outlier에 너무 크게 영향을 받는다. MAPE (Mean Absolute Percentage Error)는 주가가 퍼센트로 수익이 결정되는걸 생각하면 가장 괜찮아보인다. 그런데 Wikipedia등에 보면 이 방법의 단점으로 negative error (actual < forecast)에 큰 penalty를 준다고 지적하여 사용을 꺼리게한다. 하지만 그런 지적은 주가와는 무관한 이야기이다. Errors on percentage errors에서 보인 예를…

  • 파이썬 주식 정보 API

    yfinance – 가장 잘 알려져있다. 주가 historical data를 갖고오는데는 문제가 없었지만 company financial 가져오는데 오류가 나서 확인해 보니 야후의 encryption 키를 알아내 데이터를 가져오는 방식이었다. 이런 이유로 한계. yahooquery – undocumented api 사용. 마찬가지로 사용의 안정성이 떨어질 듯. finnhub.io – 올인원 데이터 가격이 $1500/월. historical data를 가져오려면 유료 버전을 필수로 써야함. FMP (Finance Modeling Prep)…

    Tags:

  • 간단한 파일 암호화

    개인 파일을 클라우드 등에 저장할때 보안이 걱정된다면 – 예를들어 동기화시킨 윈도우가 해킹 된다거나 – ccrypt가 정말 간편한 툴입니다. 이렇게 간단하게 암호화하고 풀때는 ccrypt -d 파일명으로 합니다.

    Tags: