본문 바로가기
수학

(고등학교) 표본평균의 분포

by 다움위키 2023. 11. 5.

대학 수학능력 시험의 평균과 표준편차를 예상할 때, 예를 들어 학원에서, 조사하는 비용이 들기 때문에, 자신의 소속에 속한 학생들의 가채점 점수로 평균과 표준편차를 대체로 예상합니다. 이때, 각 단체에서, 자신이 속한 학생들의 데이터를 기초해서 표본평균과 표본표준편차를 만들 수 있기 때문에, 표본평균과 표본표준편차가 여러 개 존재할 수 있습니다.

이 표본평균 자체를 확률변수로 다루는 것을 표본평균의 분포라고 합니다. 이 표본평균의 분포는 실제로는 잘 다루어지지 않는데, 이유는 다음과 같습니다.

예를 들어, 모집단이 30명인 경우에 대해, 모집단의 평균은 30명의 데이터를 더하는 과정이 필요합니다. 반면에 표본의 크기가 2인 표본을 얻어 표본평균을 만들면, 다음과 같은 크기를 가집니다.

i) 복원추출일 때, \(30 \times 30=900\)

ii) 비복원추출일 때,

\(\quad\)순서 있게 뽑으면, \(30 \times 29 = 870\)

\(\quad\)동시에 2개를 뽑으면, \(30 \times 29 \times \frac{1}{2} =  435\)

따라서, 표본평균의 분포가 하나의 분포이긴 하지만, 모집단 전체를 조사하는 것보다 더 많은 노력이 필요하기 때문에, 표본평균의 분포를 잘 다루지 않습니다. 그러나, 통계적 추론 등에서 필요합니다.

표본평균의 평균과 표준편차

모집단 \(\{1,3,5\}\)에서 2개의 표본을 복원추출하면, 나올 수 있는 경우는 다음의 9가지가 있습니다.

\(\quad\)(1,1),(1,3),(1,5),(3,1),(3,3),(3,5),(5,1),(5,3),(5,5)

각각의 경우의 표본평균, 즉, 두 숫자를 합해서 2로 나눈 값을 구하면,

\(\quad\)1,2,3,2,3,4,3,4,5

따라서, 표본평균 \(\overline{X}\)에 대하여 확률분포표를 만들면 다음과 같습니다.

\(\overline{X}\) 1 2 3 4 5 합계
\(P\left(\overline{X}=\overline{x}\right)\) \(\displaystyle \frac19\) \(\displaystyle \frac29\) \(\displaystyle \frac39\) \(\displaystyle \frac29\) \(\displaystyle \frac19\) 1

표본평균의 분포의 평균은 다음과 같이 구해집니다.

\(\quad\)\(\begin{align}
E\left(\overline{X}\right) & = 1\times \frac{1}{9}+2\times \frac{2}{9}+3\times \frac{3}{9}+4\times \frac{2}{9}+5\times \frac{1}{9} \\
& = 3 \\
\end{align}\)

이 예제처럼, 확률변수가 같은 간격으로 늘어서 있고, 그의 확률이 대칭이면, 대칭의 중심인 확률변수가 평균입니다. 비록 확률변수의 개수가 짝수이더라도, 중간의 두 확률변수의 평균이 전체의 평균과 같습니다.

또한, 분산은 다음과 같이 구해집니다.

\(\quad\)\(\begin{align}
V\left(\overline{X}\right) & = 1^2\times \frac{1}{9}+2^2\times \frac{2}{9}+3^2\times \frac{3}{9}+4^2\times \frac{2}{9}+5^2\times \frac{1}{9} -3^2\\
& = \frac{4}{3} \\
\end{align}\)

한편 모집단의 확률분포표는 다음과 같습니다.

\(X\) 1 3 5 합계
\(P(X=x)\) \(\displaystyle \frac13\) \(\displaystyle \frac13\) \(\displaystyle \frac13\) 1

또한, 확률분포표로부터, 평균과 분산은 다음과 같습니다.

\(\quad\)\(\displaystyle E(X)=3,\;V(X)=\frac{8}{3}\)

위의 표본평균의 분포와 모집단의 분포 사이의 평균과 분산을 비교해 보면,

\(\quad\)\(E\left(\overline{X}\right) = E(X)\)

\(\quad\)\(\displaystyle V\left(\overline{X}\right) = \frac{V(X)}{2}\)

일반적으로 모집단의 기댓값이 \(E(X)\)이고 모표준편차가 \(\sigma\)인 모집단에서 임의로 크기가 \(n\)인 표본을 복원추출하면, 그의 표본평균의 확률변수 \(\overline{X}\)에 대해 다음 성질이 성립함이 알려져 있습니다.

  • 표본평균의 평균 \(E\left(\overline{X}\right) = E(X)\)
  • 표본평균의 분산 \(\displaystyle V\left(\overline{X}\right) = \frac{\sigma^2}{n}\)
  • 표본평균의 표준편차 \(\displaystyle \sigma\left(\overline{X}\right) = \frac{\sigma}{\sqrt{n}}\)

표본평균의 분포

평균과 표준편차에서와 마찬가지로, 분포에서도 다음이 성립한다고 알려져 있습니다. 

정규분포 \(N(m, \sigma^2)\)을 따르는 모집단에서 크기가 \(n\)인 표본을 복원추출할 때, 표본평균의 확률변수 \(\overline{X}\)에 대해,

  • \(\displaystyle E\left(\overline{X}\right) = E(X)\), \(V\displaystyle \left(\overline{X}\right) = \frac{\sigma^2}{n}\), \(\displaystyle \sigma\left(\overline{X}\right) = \frac{\sigma}{\sqrt{n}}\)
  • \(\displaystyle \overline{X}\)의 분포는 \(\displaystyle N\left(m, \frac{\sigma^2}{n}\right)\)을 따릅니다.

게다가, 모집단의 분포가 비록 정규분포를 따르지 않더라도, 표본의 크기 \(n\)이 충분히 크면, 표본평균의 확률변수 \(\overline{X}\)의 분포는 근사적으로 정규분포 \(\displaystyle N\left(m, \frac{\sigma^2}{n}\right)\)을 따릅니다.