독립시행의 확률에서, 한 번 실험에서 사건 \(A\)가 발생할 확률을 \(p\)라 할 때, 이 실험을 \(n\)회 반복한 독립실험에서 사건 \(A\)가 \(r\)회 일어날 확률은
\(\quad\)\({_n}C_r p^r q^{n-r}\) (단, \(r\)은 0에서 \(n\)까지의 정수, \(p+q=1\))
이때, 사건 \(A\)가 발생하는 횟수를 확률변수 \(X\)라 하면, 이것의 확률분포표는 다음과 같이 쓸 수 있습니다.
\(X\) | 0 | 1 | 2 | \(\cdots\) | \(n\) | 합계 |
\(P(X=x)\) | \(_nC_0 p^0q^n\) | \(_nC_1 p^1q^{n-1}\) | \(_nC_2 p^2q^{n-2}\) | \(_nC_n p^nq^0\) | 1 |
이 확률분포에서 각 확률은 \((p+q)^n\)을 이항정리에 의해 전개한 식
\(\quad\)\((p+q)^n={_n}C_0 p^0 q^n+{_n}C_1 p^1 q^{n-1}+{_n}C_2 p^2 q^{n-2}+\cdots+{_n}C_n p^n q^{0}\)
의 오른쪽의 각 항과 같습니다.
이와 같은 확률분포를 이항분포라 하고, 다음과 같이 나타냅니다.
\(\quad\)\(B(n,p)\)
여기서, \(n\)은 실험 횟수이고, \(p\)는 1회의 실험에서 사건 \(A\)가 발생할 확률입니다. 이때, 확률변수 \(X\)는 이항분포 \(B(n,p)\)를 따른다고 합니다.
예를 들어, 한 개의 공정한 주사위를 3번 던질 때, 3의 배수의 눈이 나오는 횟수를 확률변수 \(X\)라 하면, \(X\)는 \(\displaystyle B\left(3,\frac{1}{3}\right)\)를 따른다고 합니다.
이항분포의 평균과 표준편차
위의 확률분포표로부터 그의 기댓값은 다음과 같이 구해집니다:
\(\quad\)\(\begin{align}
E(X) &= \sum_{k=0}^n k\binom nk p^k q^{n-k}\\
&= np\sum_{k=0}^n k\frac{(n-1)!}{(n-k)!k!}p^{k-1} q^{(n-1)-(k-1)}\\
&= np\sum_{k=1}^n \frac{(n-1)!}{((n-1)-(k-1))!(k-1)!}p^{k-1} q^{(n-1)-(k-1)}\\
&= np\sum_{k=1}^n {_{n-1}}C_{k-1}\; p^{k-1} q^{(n-1)-(k-1)}\\
&= np\sum_{\ell=0}^{n-1} {_{n-1}}C_{\ell}\; p^\ell q^{(n-1)-\ell} && \text{with } \ell:=k-1\\
&= np\sum_{\ell=0}^m {_m}C_{\ell}\; p^\ell q^{m-\ell} && \text{with } m:=n-1\\
&= np(p+q)^m \\
&=np
\end{align}\)
게다가, 그의 분산은 다음과 같이 구해집니다: 증명은 관련 문서를 참고하십시오!!
\(\quad\)\(V(X)=npq\)
큰 숫자의 법칙
통계적 확률에서, 실험의 횟수가 증가함에 따라 통계적 확률이 수학적 확률에 가까워짐을 배웠습니다.
예를 들어, 주사위 한 개를 \(n\)번 던져서 1의 눈이 나오는 횟수를 확률변수 \(X\)라 하면 \(X\)는 이항분포 \(\displaystyle B\left(n, \frac{1}{6}\right)\)을 따르고, \(X\)의 확률질량함수는
\(\quad\)\(\displaystyle P(X=x)={_n}C_x\left(\frac{1}{6}\right)^x \left(\frac{5}{6}\right)^{n-x}\;(x=0,1,2,\cdots,n)\)
이를 이용해서 \(n=10,30,50\)일 때의 이항분포의 확률을 각각 구하고, 이 데이터를 그래프로 그리면, \(n\)의 값이 점점 커짐에 따라, 그래프의 모양이 좌우 대칭인 종(또는 산) 모양임을 알 수 있는데, 이 곡선은 정규분포를 나타내는 함수의 그래프와 동일한 모양을 띕니다.
분류 | \(n=10\) | \(n=30\) | \(n=50\) |
\(x=0\) | 0.1615 | 0.0042 | 0.0001 |
\(x=1\) | 0.3230 | 0.0253 | 0.0011 |
\(x=2\) | 0.2907 | 0.0733 | 0.0054 |
\(x=3\) | 0.1550 | 0.1368 | 0.0172 |
\(x=4\) | 0.0543 | 0.1847 | 0.0405 |
\(x=5\) | 0.0130 | 0.1921 | 0.0745 |
\(x=6\) | 0.0022 | 0.1601 | 0.1118 |
\(x=7\) | 0.0002 | 0.1098 | 0.1405 |
\(x=8\) | 0.0000 | 0.0631 | 0.1510 |
\(x=9\) | 0.0309 | 0.1410 | |
\(x=10\) | 0.0130 | 0.1156 | |
\(x=11\) | 0.0047 | 0.0841 | |
\(x=12\) | 0.0015 | 0.0546 | |
\(x=13\) | 0.0004 | 0.0319 | |
\(x=14\) | 0.0000 | 0.0169 | |
\(x=15\) | \(\vdots\) | 0.0081 | |
\(x=16\) | 0.0035 | ||
\(x=17\) | 0.0014 | ||
\(x=18\) | 0.0005 | ||
\(x=19\) | 0.0002 | ||
\(x=20\) | 0.0001 | ||
\(x=21\) | 0.0000 | ||
\(\vdots\) | \(\vdots\) |
한편, 주사위 한 개를 \(n\)번 던져서 1의 눈이 나올 통계적 확률 \(\displaystyle \frac{X}{n}\)와 수학적 확률 \(\displaystyle \frac{1}{6}\)의 차이가 \(n\)이 커짐에 따라 점점 같아지는지 확인할 필요가 있습니다.
이를 위해, 두 확률의 차이가 유한한 값, 예를 들어 0.1 보다 작아질 확률을 구해보면,
처음 \(n=10\)일 때,
\(\quad\)\(\begin{align}
P\left(\left|\frac{X}{10}-\frac{1}{6}\right| < 0.1 \right) & = P(0.\dot{6} < X < 2.\dot{6}) \\
& = P(X=1) + P(X=2) \\
& = 0.6137 \\
\end{align}\)
처음 \(n=30\)일 때,
\(\quad\)\(\begin{align}
P\left(\left|\frac{X}{30}-\frac{1}{6}\right| < 0.1 \right) & = P(2 < X < 8) \\
& = P(X=3) + \cdots + P(X=7) \\
& = 0.7835 \\
\end{align}\)
처음 \(n=50\)일 때,
\(\quad\)\(\begin{align}
P\left(\left|\frac{X}{50}-\frac{1}{6}\right| < 0.1 \right) & = P(3.\dot{3} < X < 13.\dot{3}) \\
& = P(X=4) + \cdots + P(X=13) \\
& = 0.9455 \\
\end{align}\)
즉, \(n\)이 커짐에 따라 통계적 확률과 수학적 확률의 차이가 0.1 보다 작아질 확률이 점점 1에 가까워짐을 알 수 있습니다.
이러한 결과는 둘의 차이가 0.1 보다 작아지는 0.01, 0.001, ···에 대해서도 마찬가지로 성립합니다.
따라서, \(n\)이 커짐에 따라 통계적 확률과 수학적 확률은 서로 같아집니다.
한 번 실험에서 사건 \(A\)가 발생할 수학적 확률이 \(p\)이고, \(n\)번의 독립적 실험에서 사건 \(A\)가 발생할 횟수를 확률변수 \(X\)라 할 때, 임의의 양수 \(h\)에 대하여 다음이 성립합니다:
\(\quad\)\(\displaystyle \lim_{n \to \infty} P\left(\left|\frac{X}{n} - p \right| < h \right) = 1\)