신뢰수준(significance level)의 의미 – Passion is like genius; a miracle.

신뢰수준은 참값이 특정 범위에 있는 확률과는 약간 다릅니다. 그보다는 참값을 구하기 위한 작업을 많이 반복했을때 참값이 특정 범위에 있는 비율을 말합니다. 또는 방법의 정확도를 뜻합니다.

예를들어 10,000명이 치른 통계 시험 성적이 있다고 하겠습니다. 이 때, 100명을 랜덤 샘플링해서 샘플로부터 “99%의 신뢰수준으로 평균이 $\mu \pm a$ 이다”라고 평균을 추정했다고 해보겠습니다. 이 때 99%를 신뢰수준(significance level)이라고 하고, $\mu \pm a$ 를 신뢰구간(confidence interval)이라고 합니다.

99%의 신뢰수준이라고 할 때 “신뢰수준”이란 말을 주목해주세요. 신뢰수준이지 “확률”이라고 한 적이 없습니다. “확률 99%로 평균이 $\mu \pm a$ 이다”라고 하면 이해가 더 쉬웠을텐데 왜 굳이 신뢰수준이란 말을 썼을까요? 그것은 평균이 해당 구간에 99% 있다고 해석하는 것을 방지하기위한 이름이었을 것입니다.

확률은 추상적인 개념이지만 지금은 모든 사람이 쉽게 받아들입니다. 그러나 처음에는 실세상에서 의미있는 물리적인 정의를 찾을 필요가 있었습니다. 신뢰수준과 신뢰구간을 발표한 네이만은 확률을 “상대도수의 극한”이란 개념으로 이해했습니다. 상대도수란 상대적인 빈도를 말합니다. “어떤 조사를 100번했을때 99번 이렇더라”는 결론을 찾았다면 상대도수는 99/100=99%입니다. “조사를 10000번 했을 때 9900번 이렇더라”의 상대도수는 9900/10000=99%입니다. 상대도수의 극한이란 조사를 무한히 반복할때의 상대도수를 말합니다. 즉 “무한히 조사를 했을때 그중 99%는 이렇더라”에서 99%를 확률이라고 부르기로 한 것입니다.

신뢰수준 99%란, 신뢰구간을 구하는 일을 무한히 반복할때 99%의 경우엔 신뢰구간안에 모집단(조사대상)의 평균이 있다는 뜻입니다. 이것이 네이만이 신뢰수준과 신뢰구간을 제안할 때 사용한 개념이었습니다.

비슷하게 들릴지 몰라도 이 말은 랜덤 샘플에서 한번 추정해본 평균이 $\mu \pm a$ 일때, 진짜 평균이 그 구간에 속해 있을 확률이 99%이다라는 뜻은 아닙니다. 어떻게 모집단(조사 대상)의 평균이 특정 구간에 99%로 속해있을수 있나요? 모집단의 평균이란 딱 정해진 값인데 말이죠.

위키피디아의 confidence interval에서도 이부분은 엄밀하게 설명하고 있습니다.

After a sample is taken, the population parameter is either in the interval made or not, there is no chance.

이렇게 놓고 볼때 신뢰수준이란 일종의 방법의 정확도를 말합니다. 즉, 이 방법으로 평균을 구하면 $\mu \pm a$ 인데, 내 방법은 99% 정확하다라는 뜻입니다. 이 구간안에 모집단의 평균은 있거나 없습니다. 99%있는 것이 아닙니다. 내 방법은 99% 정확하므로 모집단의 평균(즉 구하고자하는 값)이 이 구간에 아예 없을 수도 있는겁니다. 내 방법은 1%의 경우엔 틀리니까요. 99% 정확하므로 이 구간안에 모집단의 평균이 있을 수도 있습니다. 즉, 구간안에 모집단의 평균이 있거나 없는 것이지 99% 있는 것이 아닙니다.

이런 알듯모를듯한 의미가 중요한 이유는 구간 추정 방법이 frequentist statistics이기 때문입니다. 흔히 착각하기 쉬운, ‘99%의 확률로 평균이 구해진 구간에 있다’라는 생각을 반영한 통계적 방법은 bayesian 적인 접근방법인 credible interval입니다만 이것은 현대에서 널리 사용되는 신뢰구간은 아닙니다.