올해 나온 R 책중에 가장 많은 기대를 받았던 책을 뽑자면 Applied Predictive Modelling을 빼놓을 수 없을 것입니다. 그 이유는 The caret Package로 잘 알려진 Max Kuhn이 저자 중 한 사람이기 때문이었습니다. caret은 R에서 모델링에 사용되는 다양한 패키지와 함수들을 몇가지 함수로 쉽게 접근할 수 있도록 묶었고 또 이들을 쉽게 튜닝하는 간편한 방법을 제시하였습니다. 얼마나 꼼꼼하게 다양한 모델들을 정리했는지는 caret 패키지의 모델 튜닝 파라미터 리스트를 보면 알 수 있습니다. 모델 성능 평가나 결측치를 채우는 함수들또한 잘 준비되어있습니다. 다른 오픈소스 프로젝트와 달리 문서화가 매우 잘 되어있는 것도 장점이여서 caret 메뉴얼을 읽는 것 만으로도 상당히 많은 공부가 됩니다.
Applied Predictive Modelling은 그 이름에서 알 수 있듯이 실전적인 내용을 담고 있습니다. 몇가지 챕터를 나열하자면 data pre-processing, model tuning, regression, classification 등을 들 수 있습니다. 각 장의 마지막에는 Computing 섹션을 두어 설명한 내용을 R 코드로 직접 해볼 수 있게 만들었습니다.
이 책의 장점은 Max Kuhn이 가진 다양한 경험을 좀 더 가까이서 볼 수 있다는 것입니다. 많은 예제가 그가 종사하는 분야인 약물이나 생물 등의 영역을 다루고 있기도 하고, 몇가지 그만의 팁을 전수하기도 합니다. 예를들어 random forest 의 트리 갯수는 1000개부터 시작하라던가, bagging 은 트리 50개 정도면 더 이상 성능 개선이 잘 없다던가 하는 점이죠.
또 다른 장점은 수식을 지양하고 말로 설명하는데 노력을 많이 쏟았다는 점입니다. 그래서 수식에 질려서 포기할 이유가 없습니다만, 그렇다고 모든 모델링 알고리즘을 밑바닥부터 알려주지는 않습니다. 기본적인 지식은 필요합니다.
caret을 여러 예제에서 널리 사용하는 것도 유용한 점입니다. 메뉴얼만으로는 부족했던 점들을 (예를들어 Positive Predictive Value의 의미라던가…) 많이 채워주고 있습니다.
단점을 꼽자면, 군데 군데 예제가 좀 미흡하거나 (예를들어 한참동안 예제를 설명한다음, “어… 그런데 실은 이 경우가 특수한 경우고 일반적으로는 이렇게 값이 나오지는 않는다”라고 말한다던가), 다양한 배경 지식에 대한 설명에 대응될만한 코드 예제가 충분하지 못하곳이 있다던가 하는 점입니다.
Predictive Modelling 전반에 대해서 잘 정리된 책이기에 읽을만한 책입니다. 다만 혹시라도 caret을 접해본적이 없다면 caret 메뉴얼을 먼저 읽고 보시기를 추천합니다.