An Introduction to Generalized Linear Model은 일반화 선형 모형에 대한 입문서 입니다. Logistic Regression라고 하면 glm(family=”binomial”…) 명령을 당연하게 생각하면서도, 정작 glm이 뭔지… glm만 나오면 ‘난 모르는일..’ 하고 넘어가다가 언젠가는 한번 봐둬야 하지 않을까 싶어서 읽게 되었습니다.
이 책의 첫인상은 난무하는 행렬식. 그래서 겁을 먹은 나머지 읽는데 수개월은 걸릴거라고 생각하고 시작했는데, 실제로는 훨씬 빨리 끝낼 수 있었습니다. 주로 전철에서 출퇴근길에만 봤는데 한달 조금 더 걸린것 같습니다.
이 책은 책 서두에서 linear regression에 대한 기본적인 내용을 찐하게 복습하고 난 뒤, exponential family에 poisson, binomial, normal distribution이 속함을 보이고, generalized linear model을 정의합니다. 그 다음, generalized linear model의 estimation, inference에 대해 다루고 차례대로 nominal, ordinal, categorical, survival data등에 대한 분석 방법을 여러가지로 다룹니다. 책의 마지막에서는 보너스(?)로 베이지안 분석기법, MCMC(Markov Chain Monte Carlo Methods)을 살펴보고 Bayesian분석 기법에 따라 앞서 다룬 generalized linear model을 bayesian 관점에서 새로 공부합니다.
이 책은 수식도 적당하고, 예제도 적당해서 딱 이론을 적당하다 싶은 깊이로 다루는게 장점입니다. 다만 후반부로 갈수록 수식을 전개하는 세부 단계의 생략이 심해지지만 실무적으로 접근하는 입장이면 큰 문제는 없습니다. 어차피 수식 다 알고 갈려는 마음은 아닌거니까요. 그리고 매 챕터마다 앞서 살펴본 모델을 만들기 위한 R코드를 제시하는데 이런 점은 아주 유용하다고 생각합니다. Logistic Regression을 설명하는 방법이나 MCMC를 설명하는 부분들은 별 기대없이 읽었지만 접근하기도 적당하고 흥미있게 잘 쓰여있단 생각입니다. (제가 본 logistic regression 모델 수식 설명중 가장 독특했는데, 아마 이 책의 설명이 통계에서의 정통적인 설명이 아닐까 싶습니다.)
이 책의 단점이라면 R로 모델을 만드는 코드는 보여주지만, R로 일단 만든 모델의 출력을 어떻게 해석하는지 등에 대한 분석이 없단 점입니다. 물론 이론을 잘 알면 분석도 잘 해야하는것이지만, 실제로 하다보면 이 두개가 어떨땐 상당히 다른 이야기니까요. 또 아쉬운 점이라면 온갖 모델 평가 메트릭(chi square, deviance, likelihood ratio chi-squared statistic, pseudo R square, Akaike Information Criteria 등)을 설명하고 수식도 설명해주지만 정작 그걸로 다양한 모델 중 어느 모델이 더 좋은지 분석하는 부분에 대한 예제가 미흡하고, 다양한 메트릭간의 비교도 없다는 점입니다.
이런 점들에 대해서는 Linear Models with R로 유명한 Julian J. Faraway가 쓴 Extending the Linear Model with R을 읽어볼 생각입니다. 아무래도 실전 위주니까 이런 부분에 대한 설명들이 있기를 기대하고 있습니다.
최근에 이런 저런 책들을 보다보니 한가지 좋은 책을 찾는 법칙을 찾았는데요. 아마존에서 10명정도에게 별 4~5점을 받은 책은 정말 괜찮은 책이란 것입니다. 사실 이런책에 별점 줄 사람이 많은게 아니다보니 10명이면 적지 않은 수입니다. 이 책은 딱 그 기준에 맞는 책인데, 그 기대를 만족시켜주었습니다.