정규분포에서, 곡선은 기댓값(평균), \(m\)에 대해 대칭이고, 표준편차에 따라 그 모양이 결정됩니다.
정규분포에서 확률을 구하기 위해, \(x\)-축과 곡선 사이의 넓이를 구해야 합니다. 그런데, 기댓값과 표준편차가 변하면, 곡선의 형태가 달라지기 때문에, 항상 적분을 다시 해야 하는 문제가 생깁니다. 더구나, 적분이 개발되기 전에는 곡선과 \(x\)-축 사이의 넓이를 계산하는 것이 더욱 힘들었을 것입니다.
한편, 이전과정에서, 제곱근 테이블과 상용로그 테이블을 만들어 둔 이유는, 가장 기본이 되는 구간의 테이블을 만들어 놓고, 그 구간을 벗어나는 값은, 산술 조작과 미리 계산된 테이블의 값을 활용해서 구하기 위함이었습니다.
정규분포에서 역시 마찬가지로, 표준이 되는 정규분포에 대한 확률을 구해 놓고, 평균과 표준편차가 변하더라도, 그의 확률을 계산할 수 있기를 희망할 것입니다.
확률변수 \(X\)가 정규분포 \(N(m, \sigma^2)\)을 따를 때, 다음 일차변환
\(\quad\)\(\displaystyle Z=\frac{X-m}{\sigma}\)
을 통한 새로운 확률변수 \(Z\)의 확률밀도함수는
\(\quad\)\(\displaystyle f(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}\)
이고, 기댓값 \(m=0\), 표준편차 \(\sigma=1\)입니다.
이 변환 과정을 표준화라고 부르고, 생성된 정규분포를 표준정규분포라고 하며, 간략히 다음과 같이 나타냅니다.
\(\quad\)\(N(0,1^2)\)
이제, 임의의 기댓값과 표준편차를 가진 정규분포를 표준화를 통해서, 항상 표준정규분포로 만들 수 있기 때문에, 표준정규분포에 대한 테이블로부터 원래 정규분포의 확률을 구할 수 있습니다.
정규분포의 표준화
이산확률분포의 확률변수의 성질에서, 이전 확률변수, \(X\)로부터, 일차변환으로 이루어진 새로운 확률변수, \(Y=aX+b\) (\(a, b\)는 실수)에 대하여, 그 확률과 분산은 다음과 같이 구해집니다.
\(\quad\)\(E(Y)=aE(x)+b,\;V(Y)=a^2V(X)\)
이와 마찬가지로 연속확률변수 \(X\)에 대하여, 일차변으로 이루어진 새로운 확률변수 \(Z=aX+b\)에 대하여 다음이 성립합니다.
\(\quad\)\(E(Z)=aE(x)+b,\;V(Z)=a^2V(X)\)
한편, 정규분포의 표준화는 마찬가지로 일차변환이므로, 위의 성질을 따릅니다.
연속확률변수 \(X\)가 정규분포 \(N(m,\sigma^2)\)을 따를 때, 표준화
\(\quad\)\(\displaystyle Z=\frac{X-m}{\sigma}\)
에 의해,
\(\quad\)\(\begin{align}
E(Z) & = E\left(\frac{X-m}{\sigma}\right) \\
& = \frac{1}{\sigma}\left(E(X)-m\right) = \frac{1}{\sigma}(m-m)=0 \\
\end{align}\)
\(\quad\)\(\begin{align}
V(Z) & = V\left(\frac{X-m}{\sigma}\right) \\
& = \frac{1}{\sigma^2}V(X) = \frac{\sigma^2}{\sigma^2}=1 \\
\end{align}\)
따라서, 표준화에 의한 확률변수 \(Z\)는 표준정규분포 \(N(0,1^2)\)을 따릅니다.
표준화의 또 다른 의미
표준화는 서로 같은 의미에 대한 다른 데이트를 서로 비교할 수 있는 방법을 제공합니다.
예를 들어, 시험을 본 후에, 국어, 수학, 영어 점수를 받았을 때, 가장 잘 본 시험이 무엇인지 궁금할 수 있습니다. 이때, 각 과목의 기댓값과 표준편차가 알려져 있다고 하더라도, 서로 다른 곡선 위에 내 시험 점수가 놓이기 때문에, 어느 과목 시험을 잘 본 것인지 알기가 힘듭니다.
이때, 표준화를 통해서, 내 점수를 표준화한 값, \(z_1, z_2, z_3\)으로 바꾸면, 표준정규분포 곡선, 즉 같은 곡선 위에 내 점수가 차례로 놓이기 때문에, 가장 오른쪽, 즉 가장 큰 값을 가진 시험 점수가 가장 잘 본 과목입니다.
표준정규분포표를 이용한 확률의 계산
이제 정규분포를 따르는 확률분포를 표준화를 통해서 표준정규분포표로부터 확률을 구해보고자 합니다.
예를 들어, 확률변수 \(X\)가 정규분포 \(N(70,2^2)\)을 따를 때, 확률 \(P(68 \le X \le 74)\)은, 표준화에 의해
\(\quad\)\(\displaystyle z_1=\frac{68-70}{2}=-1\)
\(\quad\)\(\displaystyle z_2=\frac{68-74}{2}=2\)
이제 확률
\(\quad\)\(\begin{align}
P(68 \le X \le 74) & = P(-1 \le z \le 2) \\
& = P(-1\le z \le 0) + P(0 \le z \le 2) \\
& = P(0\le z \le 1) + P(0 \le z \le 2) \\
& = 0.34134 + 0.47725 = 0.81859 \\
\end{align}\)
정규분포는 기댓값에 대해 대칭이므로, 표준화를 통해, 표준정규분포로 변환했을 때, 음의 값은, \(z\)-축 대칭이동을 통해 그의 넓이(확률)를 구할 수 있습니다.
대표적으로 시험 문제에서는 다음의 세 값이 자주 이용됩니다.
\(\quad\)\(\begin{align}
P(|X-m| \le \sigma) & = P(m-\sigma \le X \le m+\sigma) \\
& = P(-1 \le z \le 1) \\
& = 2P(0 \le z \le 1) = 0.68268 \\
\end{align}\)
\(\quad\)\(\begin{align}
P(|X-m| \le 2\sigma) & = P(m-2\sigma \le X \le m+2\sigma) \\
& = P(-2 \le z \le 2) \\
& = 2P(0 \le z \le 2) = 0.95450 \\
\end{align}\)
\(\quad\)\(\begin{align}
P(|X-m| \le 3\sigma) & = P(m-3\sigma \le X \le m+3\sigma) \\
& = P(-3 \le z \le 3) \\
& = 2P(0 \le z \le 3) = 0.99730 \\
\end{align}\)
이항분포와 정규분포
이항분포#큰 숫자의 법칙에서, 확률변수 \(X\)가 이항분포 \(B(n,p)\)를 따르고 \(n\)이 충분히 크면 평균 \(m=np\), 분산 \(\sigma^2=npq\)이므로, 근사적으로 정규분포 \(N(np,npq)\)를 따른다고 알려져 있습니다.
이전 예제, 한 개의 주사위를 던졌을 때, 1의 눈이 나오는 횟수를 확률변수 \(X\)로 잡았을 때, \(n=50\) 정도에서 이항분포의 그래프가 거의 정규분포의 특징인 종 모양에 이름을 볼 수 있었습니다.
만약, 실험의 횟수가 많지 않을 때에는 정규분포로 해석할 수 없기 때문에, (이산)확률분포표를 직접 만들어서 해당하는 조건의 확률을 일일이 계산해야 합니다.
반면에, 실험의 횟수가 충분히 클 경우에는 이항분포를 정규분포로 근사화한 후, 표준화를 통해서, 표준정규분포표를 활용해서 확률을 쉽게 구할 수 있습니다.
예를 들어, 확률변수 \(X\)가 이항분포 \(\displaystyle B\left(100, \frac{1}{5}\right)\)를 따르면,
\(\quad\)\(m=np=100 \times \frac{1}{5}=20\)
\(\quad\)\(\displaystyle \sigma^2=npq=100\times \frac{1}{5}\times \frac{4}{5} = 16\)
이므로, 정규분포 \(N\left(20, 4^2\right)\)를 따릅니다.
이때, 확률 \(P(X \ge 28)\)은, 표준화를 통해,
\(\quad\)\(\displaystyle z=\frac{28-20}{4}=2\)
따라서, 확률
\(\quad\)\(\begin{align}
P(X \ge 28) & = P(Z \ge 2) \\
& = 0.5 - P(0\le z \le 2) \\
& = 0.5 - 0.47725 \\
& = 0.02275 \\
\end{align}\)
이것은, 어떤 사건이 한 번 시행에서 확률 \(\frac15\)을 갖는 이항 분포일 때, 해당 사건이 100번의 시행에서 28번 이상 발생할 확률을 구하는 과정입니다.