Imbalanced data 를 다루는데 유용한 Imbalanced learn이라는 라이브러리를 하나 찾았습니다.
Scikit learn 도 그렇듯이 이런 라이브러리의 장점은 메뉴얼만 보고 있어도 어떤 알고리즘들이 존재하는지를 쉽게 알 수 있단 점입니다. 특히 undersampling technique 방법이라고는 random sampling 만 생각하고 있다가 다양한 Prototype selection 알고리즘을 접하게 되었는데 이게 참 인상적이네요.
예를들어 Near Miss 1, 2, 3 알고리즘이 인상깊었습니다. 단순히 다른 클래스와 가까운 데이터를 선택하는 식으로 했다가 어떤 난관에 빠질 수 있는지를 Near Miss-1 이 잘 보여주고 있다는 생각입니다.