모집단(${N}$)
연구자가 알고 싶어하는 대상 또는 집합 (collection of all items of interest)
모집단에 포함된 요소(element)의 수를 모집단 크기라 한다. 그 크기에 따라 유한모집단과 무한모집단으로 나눌 수 있다.
✔ 모집단 크기를 모수(population parameter)라고 부르는 경우가 있는데, 통계학에서 모수는 모집단의 특성치(ex:평균값)를 일컫는 용어이다.
- 유한모집단 : 모집단 중 한정된 요소만 포함한 것
- 무한모집단 : 모집단 중 포함된 요소의 개수가 무한한 것.
표본(${n}$)
모집단의 부분집합(a subset of the population)
표본에 포함된 요소의 개수를 표본크기(sample size)라 부르며, 보통 알파벳 ${n}$으로 나타낸다. 표본의 특징은 아래와 같다.
- 무작위성 (randomness) : 무작위 방식으로 추출
- 대표성 ( Representative) : 전체 모집단을 정확히 반영
Q. 미국에 있는 스타트업의 가치를 평가하는 연구를 하려 한다. 실리콘 밸리에 있는 200개의 스타트업을 무작위방식으로 방문할 수 있다고 가정할 때, 이 연구의 문제점은 무엇일까?
A. 표본이 대표성(representative)을 띄지 못한다. 실리콘 밸리의 스타트업이 미국 전체의 스타트업을 대표하진 않는다.
데이터 수집
1) 전수조사(census) = 전부조사(complete enumeration)
모집단에 포함된 요소의 개수가 한정된, 유한모집단일 때 선택할 수 있는 조사 방법. 예를 들어, 전교생인 200명인 A초등학교 학생들의 평균 몸무게를 측정하기 위해 200명을 모두 조사하는 것이 전수조사이다.
2) 표본조사(sample survey)
모집단 전체를 조사하는 것은 보통 어려운 일이기 때문에, 모집단에서 표본을 뽑아서 표본집단의 통계량을 계산한 후, 통계량을 이용해 모집단의 모수를 추론하고, 이를 이용해 가설을 통계적으로 검증(testing)하는 일련의 과정이다.
✔ 기술통계와 추정통계
- 기술통계(descriptive statistics) : 데이터 그 자체의 특징을 기술하고 요약하는 것
- 추정통계 : 기술통계를 통해 얻은 통계량으로 의미있는 추론을 하는 것
참고
통계101 X 데이터 분석, 아베마사토, 2022
유데미, https://www.udemy.com/course/statistics-for-data-science-and-business-analysis/
https://brunch.co.kr/@jaehyun-design/5