Skew 된 데이터에서의 기하 평균

​랜덤 변수 X가 로그 노말을 따르면 X의 기하평균이 중앙값과 같다. 또한 기하 평균은 산술 평균보다 같거나 작다. 따라서 outlier가 있는 데이터에서 기하 평균이 유용하게 쓰인다.

예를들어 웹 사이트 로딩 시간의 latency 를 로그 노말로 본다면 latency의 기하 평균을 구할 경우 그 값은 중앙값이 된다.중앙값은 outlier의 영향을 덜 받으므로 보다 더 대표적인 latency를 구할 수 있는 장점이 있다.

Similar Posts:

Post a Comment

Your email is never published nor shared. Required fields are marked *