확률 변수(random variable), 확률 양(random quantity), 우연 변수(aleatory variable) 또는 통계 변수(stochastic variable)는 그의 가능한 값이 확률(random) 현상의 결과(outcomes)인 변수입니다.
확률 변수는 그 이름이 확률과 관련된 변수처럼 지어졌지만, 확률 변수는 함수입니다.
확률 변수의 정의역은 실험의 결과가 가질 수 있는 집합입니다. 예를 들어, 동전을 2번 던졌을 때, 앞면이 나오는 횟수를 확률 변수 \(X\)로 정하면, 정의역은 0, 1, 2로 구성됩니다.
확률 변수의 공역은 실수이며, 그의 치역은 확률 변수에 대응하는 비-영의 확률입니다.
그리고, 그의 기호는 함수를 나타내는 \(f(\cdot)\)을 사용하기도 하지만, 확률을 나타내는 대문자의 \(P(\cdot)\)를 사용하기도 합니다.
따라서, 동전을 2번 던졌을 때, 앞면이 나오는 횟수를 확률 변수 \(X\)로 정한 위의 예제는 다음과 같이 표현 가능합니다.
\(\quad\)\(\displaystyle P(X=0)=\frac{1}{4},\;P(X=0)=\frac{1}{2},\;P(X=2)=\frac{1}{4}\)
위 예제처럼, 확률 변수의 정의역이 유한개로 결정될 수 있을 때, 그 확률변수 \(X\)를 이산확률변수라고 합니다.
즉, 확률변수 \(X\)가 유한개의 정의역 \(x_1,\;x_2,\;\cdots,\;x_n\)을 갖고, 대응하는 확률(치역)이 각각 \(p_1,\;p_2,\;\cdots,\;p_n\)일 때, 이산확률변수라고 하고, 다음의 특징을 가집니다:
\(\quad\)\(p_1+p_2+\cdots+p_n=1\)
확률변수는 이 기사에서 다루는 이산확률변수와 연속확률변수로 나뉩니다. 이산확률변수는 유한 개의 정의역으로 이루어지는 확률변수이고, 연속확률변수는 무한 개의 정의역을 갖는 확률변수입니다.
확률분포와 확률질량함수
확률분포는 함수이지만, 용어 자체에서 함수라는 의미를 찾기 힘들기 때문에, 함수의 의미를 좀 더 강조하기 위해, 그의 분포가 이산적인 이산확률분포를 확률질량함수라고 부릅니다. 연속확률변수는 확률밀도함수라고 부릅니다.
함수는 정의역, 치역, 대응관계를, 집합에서 사용하는 벤 다이어그램을 가져와서, 타원형으로 길게 늘여서 그림으로 그립니다.
이산확률분포는 함수이지만, 대응관계 자체가 함수의 성격, 예를 들어, 선형, 이차, 삼차 등의 의미를 갖는 것이 아니라, 변수가 갖는 확률에 대응함으로써, 확률 자체를 구하는 과정이 필요합니다. 그래서, 벤 다이어그램보다는 확률을 값을 식으로 구하는 과정을 보다 편한 게 쓸 수 있는 테이블 형태로 나타내고, 이를 (이산)확률분포표라고 합니다. 연속확률변수는 확률변수가 무한 개를 가지기 때문에 확률분포표를 만들 수 없습니다.
\(X\) | \(x_1\) | \(x_2\) | \(x_3\) | \(\cdots\) | \(x_n\) | 합계 |
\(P(X=x_i)\) | \(p_1\) | \(p_2\) | \(p_3\) | \(\cdots\) | \(p_n\) | 1 |
이산확률변수 \(X\)의 확률질량함수
\(\quad\)\(P(X=x_i)=p_i\;(i=1,2,3,\cdots,n)\)
에 대하여
- \(0 \le p_i \le 1\)
- \(p_1+p_2+p_3+\cdots+p_n=1\)
- \(\displaystyle P(x_i \le P \le x_j) = \sum_{k=i}^j P(X=x_k)\;(\mbox{여기서}\;i \le j, j=1,2,3,\cdots,n)\)
도수분포표와 확률분포표
이전 과정에서 평균과 분산을 구하기 위해, 도수분포표를 만들었습니다. 도수분포표와 확률분포표는 용어는 다르지면, 같은 개념을 바로 보는 시각에 따라 다르게 나타낸 것입니다.
위의 확률분포표와 대응하는 도수분포표는 다음과 같습니다.
변량 \(X\) | \(x_1\) | \(x_2\) | \(x_3\) | \(\cdots\) | \(x_n\) | 합계 |
도수 | \(f_1\) | \(f_2\) | \(f_3\) | \(\cdots\) | \(f_n\) | N |
위의 도수분포표에서, 상대도수 \(\displaystyle \frac{f_i}{N}\)은 변량 \(X=x_i\)에서의 확률 \(P(X=x_i)\)와 같습니다.
따라서, 도수분포표에서 구한 평균과 분산과 같은 확률변수(변량)에 대한 확률분포표의 평균과 분산과 같고, 구하는 식에서 표현만이 조금 다릅니다.