정규분포(Normal distribution)
평균 ${\mu}$, 표준편차 ${\sigma}$에 대해 연속적인 랜덤변수 ${X}$가 다음과 같은 확률밀도함수를 가지는 경우 정규분포라고 하며 가우시안 분포(Gaussian distribution)라고도 한다.
랜덤 변수 X가 정규분포를 따른다는 것을 다음과 같이 표현한다.
정규분포의 특징
- 평균 ${\mu}$를 중심으로 한 종형(bell shape)으로, 좌우대칭 분포이다.
- 평균 ${\mu}$ 근처에 값이 가장 많고, 평균 ${\mu}$에서 멀어질수록 적어진다.
- 키나 몸무게 등 정규분포로 근사할 수 있는 현상이 많다.
위의 그림에서 알 수 있듯이, 정규분포의 파라미터 ${\mu}$는 분포의 위치를 결정한다. 이와 함께 파라미터 ${\sigma}$는 분포의 너비를 결정한다.
표준정규분포(Standard normal distribution)
정규분포 중 평균 ${\mu=0}$, 표준편차 ${\sigma=1}$ 인 정규분포 ${N\left(0,1\right)}$을 표준정규분포라고 한다. 위의 그래프 중 빨간색이 이에 해당한다. 데이터의 평균과 표준편차 값에 따라 다양한 값을 띄므로 집단간의 비교가 어렵다는 문제가 생긴다. 그래서 서로 다른 모수값을 가진 정규분포를 가진 집단들을 비교하기 위해 표준화를 사용한다. 정규분포를 표준화 하는 방법은 Z-score를 사용하는데 식은 다음과 같다.
Z-score의 수학적 의미는
- 평균과의 거리가 표준편차의 몇 배인가를 나타낸다
- ${\mu}$나 ${\sigma}$와 상관없이 분포 안에서 어디에 위치하는가를 알 수 있다
표준화를 하는 이유에는 여러가지가 있다.
- 서로 다른 정규분포 데이터를 비교
- 정규성을 탐색
- 이상치 탐색
- 가설 검정
- 회귀 분석
중심극한정리(Central limit theorem, CLT)
중심극한정리는 동일한 확률분포를 가진 독립확률변수 ${n}$개의 평균의 분포는 ${n}$이 충분히 크다면 정규분포에 가까워진다는 이론이다. 여기서 ${n}$은 임의의 모집단이다. 알 수 없는 모집단에서 표본이 충분히 크다면, 이 표본평균의 분포는 정규분포에 근사한다는 것이다. 그러나 ${n}$이 충분히 크지 않은 상황에서 정규분포로 가정하는 것은 옳지 않다.
참고
통계101 X 데이터 분석, 아베마사토, 2022
https://www.udemy.com/course/statistics-for-data-science-and-business-analysis/