분산(Variance)
먼저 편차란 평균(mean)에 대한 차이이다. 실제 데이터 값이 평균을 기준으로 할 때 얼마나 떨어져 있는 가를 나타내는 값이다. 편차를 모두 합하면 0이 되므로 분산을 구하기 위해서는 편차를 그냥 더하지 않고 제곱해서 더하는 과정을 거친다. 즉, 데이터가 평균에 가까울수록 편차는 작아지므로 분산은 작아지고, 평균과 멀리 떨어져 있을수록 편차는 커지고 분산 또한 증가하게 된다.
위 그림과 같이, 데이터가 좁은 범위에 몰려있으면 분산이 작고, 데이터가 넓은 범위에 퍼져있다면 분산이 크다는 것을 알 수 있다.
표준편차(Standard deviation)
분산을 제곱근한 값이다. 분산은 편차를 제곱하면서 값이 크게 증가한다. 이는 값 자체의 의미를 파악하기 어려운 경향이 있으므로 제곱하여 값이 커진 분산을 제곱근하여 다시 원래 단위로 전환해서 이해하기 쉽게 만들어 준다.
참고
통계 101 X 데이터 분석, 아베마사토, 2022
유데미, https://www.udemy.com/course/statistics-for-data-science-and-business-analysis/