모집단 비율(population proportion)은, 일반적으로 \(\displaystyle P\)로 표시되고 일부 교과서에서 \(\displaystyle \pi\)로 표시되며, 한 모집단과 결합된 백분율 값을 설명하는 매개-변수(parameter)입니다. 예를 들어, 2010 미국 인구 조사는 미국 인구의 83.7%가 히스패닉 또는 라틴계가 아닌 것으로 밝혀졌습니다. 값 .837는 모집단 비율입니다. 일반적으로, 모집단 비율 및 다른 모집단 매개-변수는 미지수입니다. 인구-조사(census)는 인구 매개-변수의 실제 값을 결정하기 위해 수행될 수 있지만, 종종 인구-조사는 비용과 시간 소비로 인해 실용적이지 않습니다.
모집단 비율은 보통 관찰 연구(observational study) 또는 실험(experiment)에서 얻어진 불-편향(unbiased) 표본 통계량을 통해 추정됩니다. 예를 들어, National Technological Literacy Conference는 경제적으로 문맹인 성인의 비율을 결정하기 위해 2,000 성인의 전국 조사를 실시했습니다. 그 연구는 표본화된 2,000 성인 중 72%가 국내 총생산(gross domestic product)이 무엇인지 이해하지 못함을 보였습니다. 72%의 값은 표본 비율입니다. 표본 비율은 일반적으로 \(\displaystyle \hat{p}\)으로 표시되고 일부 교과서에서 \(\displaystyle p\)로 표시됩니다.
Mathematical definition
비율(proportion)은 집합 \(\displaystyle R\)에서 값에 대한 부분-집합 \(\displaystyle S\)에서 값의 비(ratio)로 수학적으로 정의됩니다.
이를 테면, 모집단 비율은 다음처럼 정의될 수 있습니다:
\(\displaystyle P= \frac{X}{N}\) 여기서 \(\displaystyle X \)는 모집단의 성공의 횟수이고 \(\displaystyle N \)은 모집단의 크기입니다.
이 수학적 정의는 표본 비율에 대해 정의를 제공하기 위해 일반화될 수 있습니다:
\(\displaystyle \hat{p}= \frac{x}{n} \) 여기서 \(\displaystyle x \)는 표본에서 성공의 횟수이고 \(\displaystyle n \)은 모집단으로부터 얻어진 표본의 크기입니다.
Estimation
추론 통계학(inferential statistics)에서 연구의 주요 초점 중 하나는 매개-변수의 "참" 값을 결정하는 것입니다. 일반적으로, 매개-변수에 대해 실제 값은 만약 인구-조사가 연구의 모집단에서 수행되지 않으면 구할 수 없습니다. 어쨌든, 매개-변수에 대해 합리적인 추정을 얻기 위해 사용될 수 있는 통계적 방법이 있습니다. 이들 방법은 신뢰 구간(confidence intervals)과 가설 테스팅(hypothesis testing)을 포함합니다.
모집단 비율의 값을 추정하는 것은 농업(agriculture), 사업(business), 경제학(economics), 교육(education), 공학(engineering), 환경 연구(environmental studies), 의학(medicine), 법률(law), 정치 과학(political science), 심리학(psychology), 및 사회학(sociology)의 분야에 큰 의미를 가질 수 있습니다.
모집단 비율은, 그의 공식이 아래에서 제공되는, Z-구간에서 일-표본 비율로 알려진 신뢰 구간의 사용법을 통해추정될 수 있습니다:
\(\quad\displaystyle \hat{p}\pm z^* \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\)
여기서 \(\displaystyle \hat{p}\)는 표본 비율, \(\displaystyle n\)은 표본 크기이고, \(\displaystyle z^*\)는 신뢰, \(\displaystyle C\)의 수준에 대해 표준 정규 분포(standard normal distribution)의 위쪽 \(\displaystyle \frac{1-C}{2}\) 임계값입니다.
Proof
Z-구간에서 일-표본 비율에 대해 공식을 유도하기 위해, 표본 비율의 표본화 분포(sampling distribution)가 고려되어야 합니다. 표본 비율의 표본화 분포의 평균은 보통 \(\displaystyle \mu_\hat{p}=P\)로 나타내고 그것의 표준 편차는 \(\displaystyle \sigma_\hat{p}=\sqrt{\frac{P(1-P)}{n}}\)로 나타냅니다. \(\displaystyle P\)의 값은 미지수이므로, 불-편향된 통계량 \(\displaystyle \hat{p}\)는 \(\displaystyle P\)에 대해 사용될 것입니다. 평균과 표준 편차는 각각 \(\displaystyle \mu_\hat{p}=\hat{p}\) 및 \(\displaystyle \sigma_\hat{p}=\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\)로 쓰입니다. 중심 극한 정리(Central Limit Theorem)를 호출하면, 표본 비율의 표본화 분포는 근사적으로 정규(normal)입니다.
다음 확률이 계산되었다고 가정합니다: \(\displaystyle P(-z^*<\frac{\hat{p}-P}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}<z^*) = C \), 여기서 \(\displaystyle 0<C<1\) 및 \(\displaystyle \pm z^*\)는 표준 임계값입니다.
부등식(inequality) \(\displaystyle -z^*<\frac{\hat{p}-P}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}<z^*\)은 다음처럼 대수적으로 다시-쓸 수 있습니다:
\(\quad\displaystyle \begin{align}
& -z^*<\frac{\hat{p}-P}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}<z^* \Rightarrow \\
& -z^*{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}<\hat{p}-P<z^*{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}} \Rightarrow \\
& -\hat{p}-z^*{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}<-P<-\hat{p}+z^*{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}} \Rightarrow \\
& \hat{p}-z^*{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}<P<\hat{p}+z^*{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}} \\
\end{align}\)
위에서 행해진 대수적 작업으로부터, \(\displaystyle P\)가 \(\displaystyle \hat{p} \pm z^* \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\)의 값 사이에 떨어질 수 있음을 확실성 \(\displaystyle C\)의 수준으로부터 명백합니다.
Conditions for inference
일반적으로, 모집단 비율을 추정하는 데 사용되는 공식은 알려진 수치 값의 치환을 요구합니다. 어쨌든, 이들 수치 값은 공식으로 "맹목적으로" 치환되는데 왜냐하면 통계적 추론(statistical inference)은 미지수 매개-변수의 추정이 정당화되어야 함을 요구하기 때문입니다. 매개-변수의 추정을 정당화되기 위해서, 검증되어야 할 세 가지 조건이 있습니다:
- 데이터의 개별 관측은 관심 모집단의 단순 무작위 표본(simple random sample)으로부터 얻어져야 합니다.
- 데이터의 개별 관측치은 정규성(normality)이 표시되어야 합니다. 이것은 다음 정의를 통해 수학적으로 확인될 수 있습니다:
- \(\displaystyle n\)을 주어진 무작위 표본의 표본 크기로 놓고 \(\displaystyle \hat{p}\)을 그것의 표본 비율로 놓습니다. 만약 \(\displaystyle n \hat{p} \geq 10\) 및 \(\displaystyle n(1-\hat{p})\geq10\)이면, 데이터의 개별 관측은 정규성을 표시합니다.
- 데이터의 개별 관측은 서로 독립(independent)이어야 합니다. 이것은 다음 정의를 통해 수학적으로 확인될 수 있습니다:
- \(\displaystyle N\)를 관심 모집단의 크기로 놓고 \(\displaystyle n\)를 모집단의 무작위 표본의 표본 크기로 놓습니다. 만약 \(\displaystyle N\geq10n\)이면, 데이터의 개별 관측은 서로 독립입니다.
SRS, 정규성, 및 독립에 대해 조건은 대부분의 통계 교과서에서 추론 도구 상자에 대해 조건으로 때때로 참조됩니다.
Example
대통령 선거가 민주주의에서 진행되고 있다고 가정합니다. 민주주의의 유권자 모집단에서 400 적격 유권자의 무작위 표본은 272 유권자가 후보 B를 지지한다는 것을 보입니다. 한 정치학자가 유권자 모집단의 몇 퍼센트가 후보 B를 지지하는지 결정하기를 원합니다.
정치 과학자의 질문에 답하기 위해, 95%의 신뢰 수준을 갖는 Z-구간에서 일-표본 비율은 후보 B를 지지하는 이 민주주의에서 적격 유권자의 모집단 비율을 결정하기 위해 구성될 수 있습니다.
Solution
무작위 샘플에서 샘플 크기, \(\displaystyle n = 400\)을 갖는 \(\displaystyle \hat{p} = \frac{272}{400} = 0.68\)임이 알려져 있습니다.
신뢰 구간이 구성되기 전에, 추론에 대해 조건이 확인될 것입니다.
- 400 유권자의 무작위 표본은 모집단 투표로부터 얻어졌으므로, 단순 무작위 표본에 대해 조건이 충족되었습니다.
- \(\displaystyle n = 400\) 및 \(\displaystyle \hat{p} = 0.68\)으로 놓으며, \(\displaystyle n \hat{p} \geq 10\) 및 \(\displaystyle n(1-\hat{p})\geq10\)인지 여부가 검사될 것입니다:
- \(\displaystyle (400) (0.68) \geq 10 \Rightarrow 272 \geq 10\) 및 \(\displaystyle (400) (1-0.68) \geq 10 \Rightarrow 128 \geq 10\)
- 정규성에 대해 조건은 충족되었습니다.
- \(\displaystyle N\)을 이 민주주의에서 유권자 모집단의 크기로 놓고, \(\displaystyle n = 400\)입니다. 만약 \(\displaystyle N \geq 10 n\)이면, 독립이 있습니다.
- \(\displaystyle N \geq 10(400) \Rightarrow N \geq 4000\)
- 이 민주주의의 유권자에 대해 모집단 크기 \(\displaystyle N\)은 적어도 4,000이 되어야 하는 것으로 가정될 수 있습니다. 따라서, 독립에 대해 조건은 충족되었습니다.
추론에 대해 조건이 검증되면, 신뢰 구간을 구성할 수 있습니다.
\(\displaystyle \hat{p} = 0.68, n = 400\), 및 \(\displaystyle C = 0.95\)으로 놓습니다.
\(\displaystyle z^*\)에 대해 풀기 위해, 표현(expression) \(\displaystyle \frac{1-C}{2}\)이 사용됩니다.
\(\quad\displaystyle \frac{1-C}{2} = \frac{1-0.95}{2} = \frac{0.05}{2} = 0.0250\)
표준 정규 종 곡선을 검사함으로써, \(\displaystyle z^*\)에 대해 값은 표준 점수가 0.0250의 표준 정규 곡선에 위쪽 꼬리 넓이 또는 1 − 0.0250 = 0.9750의 넓이를 제공함을 식별함으로써 결정될 수 있습니다. \(\displaystyle z^*\)에 대해 값은 표준 정규 확률의 테이블을 통해 역시 찾을 수 있습니다.
표준 정규 확률의 테이블에서, 0.9750의 넓이를 제공하는 \(\displaystyle Z\)의 값은 1.96입니다. 따라서 \(\displaystyle z^*\)에 대해 값은 1.96입니다.
\(\displaystyle \hat{p} = 0.68\), \(\displaystyle n = 400\), \(\displaystyle z^* = 1.96\)에 대해 값은 이제 Z-구간에서 일-표본 비율에 대해 공식에 대체될 수 있습니다:
\(\quad\displaystyle \begin{align}
& \hat{p} \pm z^* \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \Rightarrow \\
& (0.68) \pm (1.96) \sqrt{\frac{(0.68)(1-0.68)}{(400)}} \Rightarrow \\
& 0.68 \pm 1.96 \sqrt{0.000544} \Rightarrow \\
& \bigl(0.63429,0.72571\bigr) \\
\end{align}\)
추론 조건과 Z-구간에서 일-표본 비율에 대한 공식을 바탕으로, 후보 B를 지지하는 이 민주주의에서 유권자 모집단의 백분율이 63.429%와 72.571% 사이임을 95% 신뢰 수준으로 결론 내릴 수 있습니다.
Value of the parameter in the confidence interval range
추론 통계학에서 공통적으로 묻는 질문은 매개-변수가 신뢰 구간 이내에 포함되는지 여부입니다. 이 질문에 대답하는 유일한 방법은 인구-조사를 실시하는 것입니다. 위에서 주어진 예제를 참조하면, 모집단 비율이 신뢰 구간의 범위 안에 있을 확률은 1 또는 0입니다. 즉, 매개-변수는 구간 범위 안에 포함되거나 포함되지 않습니다. 신뢰 구간의 주요 목적은 매개-변수에 대한 이상적인 값이 무엇인지 더 잘 설명하는 것입니다.
Common errors and misinterpretations from estimation
신뢰 구간의 구성에서 발생하는 매우 공통적인 오차는 \(\displaystyle C = 95 \%\)와 같은 신뢰 수준이 95% 기회를 의미한다는 믿음입니다. 이것은 올바르지 않습니다. 신뢰 수준은 확률이 아닌 확실성의 측정을 기반으로 합니다. 따라서 \(\displaystyle C\)의 값은 독점적으로 0과 1 사이에 떨어집니다.