본문 바로가기
수학

(고등학교) 이항분포

by 다움위키 2023. 11. 5.

독립시행의 확률에서, 한 번 실험에서 사건 \(A\)가 발생할 확률을 \(p\)라 할 때, 이 실험을 \(n\)회 반복한 독립실험에서 사건 \(A\)가 \(r\)회 일어날 확률은

\(\quad\)\({_n}C_r p^r q^{n-r}\) (단, \(r\)은 0에서 \(n\)까지의 정수, \(p+q=1\))

이때, 사건 \(A\)가 발생하는 횟수를 확률변수 \(X\)라 하면, 이것의 확률분포표는 다음과 같이 쓸 수 있습니다.

\(X\) 0 1 2 \(\cdots\) \(n\) 합계
\(P(X=x)\) \(_nC_0 p^0q^n\) \(_nC_1 p^1q^{n-1}\) \(_nC_2 p^2q^{n-2}\)   \(_nC_n p^nq^0\) 1

이 확률분포에서 각 확률은 \((p+q)^n\)을 이항정리에 의해 전개한 식

\(\quad\)\((p+q)^n={_n}C_0 p^0 q^n+{_n}C_1 p^1 q^{n-1}+{_n}C_2 p^2 q^{n-2}+\cdots+{_n}C_n p^n q^{0}\)

의 오른쪽의 각 항과 같습니다.

이와 같은 확률분포를 이항분포라 하고, 다음과 같이 나타냅니다.

\(\quad\)\(B(n,p)\)

여기서, \(n\)은 실험 횟수이고, \(p\)는 1회의 실험에서 사건 \(A\)가 발생할 확률입니다. 이때, 확률변수 \(X\)는 이항분포 \(B(n,p)\)를 따른다고 합니다.

예를 들어, 한 개의 공정한 주사위를 3번 던질 때, 3의 배수의 눈이 나오는 횟수를 확률변수 \(X\)라 하면, \(X\)는 \(\displaystyle B\left(3,\frac{1}{3}\right)\)를 따른다고 합니다.

이항분포의 평균과 표준편차

위의 확률분포표로부터 그의 기댓값은 다음과 같이 구해집니다:

\(\quad\)\(\begin{align}
E(X) &= \sum_{k=0}^n k\binom nk p^k q^{n-k}\\
                     &= np\sum_{k=0}^n k\frac{(n-1)!}{(n-k)!k!}p^{k-1} q^{(n-1)-(k-1)}\\
                     &= np\sum_{k=1}^n \frac{(n-1)!}{((n-1)-(k-1))!(k-1)!}p^{k-1} q^{(n-1)-(k-1)}\\
                     &= np\sum_{k=1}^n {_{n-1}}C_{k-1}\; p^{k-1} q^{(n-1)-(k-1)}\\
                     &= np\sum_{\ell=0}^{n-1} {_{n-1}}C_{\ell}\; p^\ell q^{(n-1)-\ell} && \text{with } \ell:=k-1\\
                     &= np\sum_{\ell=0}^m {_m}C_{\ell}\; p^\ell q^{m-\ell} && \text{with } m:=n-1\\
                     &= np(p+q)^m \\
                     &=np
\end{align}\)

게다가, 그의 분산은 다음과 같이 구해집니다: 증명은 관련 문서를 참고하십시오!!

\(\quad\)\(V(X)=npq\)

큰 숫자의 법칙

통계적 확률에서, 실험의 횟수가 증가함에 따라 통계적 확률이 수학적 확률에 가까워짐을 배웠습니다.

예를 들어, 주사위 한 개를 \(n\)번 던져서 1의 눈이 나오는 횟수를 확률변수 \(X\)라 하면 \(X\)는 이항분포 \(\displaystyle B\left(n, \frac{1}{6}\right)\)을 따르고, \(X\)의 확률질량함수는

\(\quad\)\(\displaystyle P(X=x)={_n}C_x\left(\frac{1}{6}\right)^x \left(\frac{5}{6}\right)^{n-x}\;(x=0,1,2,\cdots,n)\)

이를 이용해서 \(n=10,30,50\)일 때의 이항분포의 확률을 각각 구하고, 이 데이터를 그래프로 그리면, \(n\)의 값이 점점 커짐에 따라, 그래프의 모양이 좌우 대칭인 종(또는 산) 모양임을 알 수 있는데, 이 곡선은 정규분포를 나타내는 함수의 그래프와 동일한 모양을 띕니다.

분류 \(n=10\) \(n=30\) \(n=50\)
\(x=0\) 0.1615 0.0042 0.0001
\(x=1\) 0.3230 0.0253 0.0011
\(x=2\) 0.2907 0.0733 0.0054
\(x=3\) 0.1550 0.1368 0.0172
\(x=4\) 0.0543 0.1847 0.0405
\(x=5\) 0.0130 0.1921 0.0745
\(x=6\) 0.0022 0.1601 0.1118
\(x=7\) 0.0002 0.1098 0.1405
\(x=8\) 0.0000 0.0631 0.1510
\(x=9\)   0.0309 0.1410
\(x=10\)   0.0130 0.1156
\(x=11\)   0.0047 0.0841
\(x=12\)   0.0015 0.0546
\(x=13\)   0.0004 0.0319
\(x=14\)   0.0000 0.0169
\(x=15\)   \(\vdots\) 0.0081
\(x=16\)     0.0035
\(x=17\)     0.0014
\(x=18\)     0.0005
\(x=19\)     0.0002
\(x=20\)     0.0001
\(x=21\)     0.0000
\(\vdots\)     \(\vdots\)

한편, 주사위 한 개를 \(n\)번 던져서 1의 눈이 나올 통계적 확률 \(\displaystyle \frac{X}{n}\)와 수학적 확률 \(\displaystyle \frac{1}{6}\)의 차이가 \(n\)이 커짐에 따라 점점 같아지는지 확인할 필요가 있습니다. 

이를 위해, 두 확률의 차이가 유한한 값, 예를 들어 0.1 보다 작아질 확률을 구해보면,

처음 \(n=10\)일 때,

\(\quad\)\(\begin{align}
P\left(\left|\frac{X}{10}-\frac{1}{6}\right| < 0.1 \right) & = P(0.\dot{6} < X < 2.\dot{6}) \\
& = P(X=1) + P(X=2) \\
& = 0.6137 \\
\end{align}\)

처음 \(n=30\)일 때,

\(\quad\)\(\begin{align}
P\left(\left|\frac{X}{30}-\frac{1}{6}\right| < 0.1 \right) & = P(2 < X < 8) \\
& = P(X=3) + \cdots + P(X=7) \\
& = 0.7835 \\
\end{align}\)

처음 \(n=50\)일 때,
\(\quad\)\(\begin{align}
P\left(\left|\frac{X}{50}-\frac{1}{6}\right| < 0.1 \right) & = P(3.\dot{3} < X < 13.\dot{3}) \\
& = P(X=4) + \cdots + P(X=13) \\
& = 0.9455 \\
\end{align}\)

즉, \(n\)이 커짐에 따라 통계적 확률과 수학적 확률의 차이가 0.1 보다 작아질 확률이 점점 1에 가까워짐을 알 수 있습니다.

이러한 결과는 둘의 차이가 0.1 보다 작아지는 0.01, 0.001, ···에 대해서도 마찬가지로 성립합니다.

따라서, \(n\)이 커짐에 따라 통계적 확률과 수학적 확률은 서로 같아집니다.

한 번 실험에서 사건 \(A\)가 발생할 수학적 확률이 \(p\)이고, \(n\)번의 독립적 실험에서 사건 \(A\)가 발생할 횟수를 확률변수 \(X\)라 할 때, 임의의 양수 \(h\)에 대하여 다음이 성립합니다:

\(\quad\)\(\displaystyle \lim_{n \to \infty} P\left(\left|\frac{X}{n} - p \right| < h \right) = 1\)