평균(mean)
집단에서 관측 또는 측정된 수치를 집단의 크기로 나눈 값을 의미하는데, 정확한 용어는 산술평균이다.
산술평균은 아래와 같은 4가지 특징을 가진다.
- 이상치(outlier)에 영향을 쉽게 받는다
극단적인 값에 취약함을 뜻한다. 예를 들어 {1, 2, 3}에서 평균은 2이고 중간값도 2이다. 하지만 여기에 99를 추가한 {1, 2, 3, 99}의 경우를 살펴보면, 중간값은 2와 3의 평균인 5/2로 약간 높아지지만 평균은 105/4=26.25로 매우 크게 변한다. 그래서 이렇게 극단적인 자료에는 중앙값을 사용하는 것이 좋다.
- 편차의 합이 0이 된다
- 분산이 가장 작다
- 표본 값의 평균이 모집단과 크게 다르지 않다
중앙값(median)
어떤 주어진 값들을 순서대로 정렬했을 때, 가장 중앙에 있는 값을 의미한다.
- 중앙값은 산술평균에 비해 극단적인 값들의 영향을 받지 않는다
- 데이터가 짝수일 경우, 중앙값이 두 개 일 수 있다. 이 경우에는 그 두 값의 평균을 중앙값으로 한다
왜도(skeweness)
자료의 분포가 중앙으로부터 좌우로 치우친 정도를 나타내는 척도이다.
- Negative skew (skew < 0)
- 평균에 비해 왼쪽 멀리에 값이 존재
- Positive skew (skew > 0)
- 평균에 비해 오른쪽 멀리에 값이 존재
참고
통계 101 X 데이터 분석, 아베마사토, 2022
유데미, https://www.udemy.com/course/statistics-for-data-science-and-business-analysis/