통계적 추론은 목적과 방법에 따라 추정(estimation)과 가설검정(hypothesis testing)으로 나눌 수 있습니다.
이번 글에서는 추정에 대해 작성해보겠습니다.
추정량(Estimator)
모집단의 성질을 추정하는 데 사용하는 통계량이다. 미지의 모수로써, $\theta$로 표시하고 모수를 추론하기 위해 표본으로부터 설정한 추정량을 $\hat{\theta}$ 로 표시한다.
1) 점 추정(Point estimation) : $\hat{\theta}$
표본의 특성치인 통계량을 이용하여 모수의 참값이라고 추정되는 하나의 수치를 결정하는 것. 모집단으로부터 표본을 추출하는 방법은 표본추출 개수와 추출 방법에 따라 무수히 많으면 그 때마다 통계량 또한 달라진다.
점 추정량 선택 기준
- 불편성/불편의성(Unbiasedness) : 편의(치우침) 없는 성질
- 효율성(Efficiency) : 추정량 분산이 작게 나타나는 성질
- 일치성(Consistency) : 표본 크기가 커질수록, 추정량이 모수에 점근적으로 근점하는 성질
- 충분성(Sufficiency) : 어떤 추정량이 모수 $\theta$에 대해, 가장 많은 정보를 제공하는지에 대한 성질
2) 구간 추정(Interval estimation) : $\hat{\theta}_{L}<\hat{\theta}<\hat{\theta}_{U}$
점추정에는 표본오차가 존재하므로 신뢰도 문제가 발생하기 마련이다. 이를 보완하기 위해 나온 개념이며, 구간추정은 신뢰도를 제시하면서 상한값과 하한값으로 모수를 추정하는 방법이다.
신뢰구간(Confidence interval)
$\hat{\theta}_{L}<\hat{\theta}<\hat{\theta}_{U}$ 식에서 각 변수들이 의미하는 바는 다음과 같다
- ${L}$ : 신뢰하한(confidence lower limit)
- ${U}$ : 신뢰상한(confidence upper limit)
- ${1-\alpha}$ : 신뢰수준(confidence level)
신뢰수준은 ${\alpha}$가 0.1, 0.05, 0.01이 되는 90%, 95%, 99%를 주로 사용한다.
신뢰구간에서 신뢰수준 95%의 의미
모수 ${\theta}$를 갖는 모집단으로부터 같은 크기의 랜덤표본을 여러 개 추출했을 때, 각각의 표본으로부터 얻은 신뢰구간 중 95%에 해당하는 구간이 모수 ${\theta}$를 포함하고 나머지 구간은 포함하지 않는 것을 말한다
예를 들자면 크기가 같은 100개의 랜덤표본에서 표본을 추출하면 100개 중 대략 95개는 모수의 참값에 포함된다는 의미이다.
T-분포(Student's T Distribution)
미지의 모집단 표준 편차 ${\sigma}$를 표본으로 계산한 비편향표준편차 ${s}$로 대용했을 때, ${\overline{x}-\mu}$를 표준오차 $s/\sqrt{n}$로 나누어 표준화한 값이 따르는 분포이다. 주로 표본의 크기(${n}$)가 작을 때 사용한다. 즉, 아래와 같은 확률변수를 따른다.
- 분산이 알려져 있지 않고, 표본의 수가 적은 경우에 사용한다
- 표준정규분포처럼 0을 중심으로 종형(bell shape)을 가진 좌우 대칭 분포이다
- 표본의 크기가 크면 정규분포처럼 보이고, 작으면 꼬리부분이 보다 두껍게 보인다
- 자유도 ${n}$에 따라 모양이 변하는데, 자유도 ${n}$이 커짐에 따라 표준정규분포 $N(0,1)$에 수렴한다
표준오차(Standard error)
${\sigma}$는 모집단의 성질이므로 보통 알 수 없는 미지의 숫자이다. 따라서 표본에서 추정한 비편향표준편차 ${s}$를 ${\sigma}$ 대신 사용한 $s/\sqrt{n}$를 표준오차로 삼는다. 이때 표본오차는 정규분포가 아니라, t-분포를 따르게 된다.
참고
통계 101 X 데이터 분석, 아베 마사토, 2022
https://www.udemy.com/course/statistics-for-data-science-and-business-analysis/