확률 이론(probability theory) 및 통계학(statistics)에서, 확률 변수(random variable)의 모음(collection)의 부분-집합의 주변 분포(marginal distribution)는 부분-집합에 포함된 변수의 확률 분포(probability distribution)입니다. 그것은 다른 변수의 값 참조없이 부분-집합에서 변수의 다양한 값의 확률을 제공합니다. 이것은 조건부 분포(conditional distribution)와 대조되며, 조건부 확률은 다른 변수의 값에 따라 확률을 제공합니다.
주변 변수(marginal variables)는 유지되는 변수의 부분 집합에서 그들의 변수입니다. 이들 개념은 "주변"인데 왜냐하면 그들은 행 또는 열을 따라 테이블에서 값을 더하고, 테이블의 가장자리에 합을 씀으로써 구해질 수 있기 때문입니다. 주변 변수의 분포 (주변 분포)는 제거되는 변수의 분포에 걸쳐 주변화 – 즉, 가장자리에서 합에 초점을 맞추는 것 – 에 의해 획득되고, 제거되는 변수는 소외 되어졌다(marginalized out)고 말합니다.
문맥은 여기서 수행되는 이론적인 연구, 또는 행해지는 데이터 해석(data analysis)이 확률 변수의 더 넓은 집합을 포함하지만 해당 관심은 그들 변수의 감소된 숫자에 의해 제한되는 것입니다. 많은 응용에서, 해석은 확률 변수의 주어진 모음으로 시작하며, 그런-다음 먼저 (원래 확률 변수의 합과 같은) 새로운 변수를 정의함으로써 집합을 확장하고 마지막으로 (합과 같은) 부분-집합의 주변 분포에 관심을 둠으로써 숫자를 줄입니다. 여러 다른 해석이 수행될 수 있으며, 각각은 주변 변수로 변수의 다른 부분-집합을 처리합니다.
Definition
Marginal probability mass function
두 이산 확률 변수(random variable), 말하자면, X와 Y의 알려진 결합 분포(joint distribution)가 주어지면, 두 변수 중 하나--예를 들어 X--의 주변 분포는 Y의 값이 고려사항에서 취해지지 않을 때 X의 확률 분포(probability distribution)입니다. 이것은 Y의 모든 값에 걸쳐 결합 확률(joint probability) 분포를 합함으로써 계산될 수 있습니다. 자연스럽게, 역은 항상 참입니다: 우리는 X의 별도의 값에 걸쳐 합함으로써 Y에 대해 주변 분포를 얻을 수 있습니다.
\(\quad\displaystyle p_X(x_i)=\sum_{j}p(x_i,y_j)\), 및 \(\displaystyle p_Y(y_j)=\sum_{i}p(x_i,y_j)\)
주변 확률은 기댓값(expected value)으로 항상 쓰일 수 있습니다:
\(\quad\displaystyle p_X(x) = \int_y p_{X \mid Y}(x \mid y) \, p_Y(y) \, \mathrm{d}y = \operatorname{E}_{Y} [p_{X \mid Y}(x \mid y)]\;.\)
직관적으로, X의 주변 확률은 Y의 특정 값이 주어졌을 때 X의 조건부 확률을 검사하고, 그런-다음 Y의 모든 값의 분포에 걸쳐 이 조건부 확률을 평균함으로써 계산됩니다.
이것은 (무의식 통계학자의 법칙(Law of the unconscious statistician)을 적용한 후) 기댓값(expected value)의 정의로부터 따릅니다:
\(\quad\displaystyle \operatorname{E}_Y [f(Y)] = \int_y f(y) p_Y(y) \, \mathrm{d}y.\)
그러므로, 주변화는 확률 변수 Y와 또 다른 확률 변수 X = g(Y)의 확률 분포의 변환에 대해 규칙을 제공합니다.
\(\quad\displaystyle p_X(x) = \int_y p_{X \mid Y}(x \mid y) \, p_Y(y) \, \mathrm{d}y = \int_y \delta\big(x - g(y)\big) \, p_Y(y) \, \mathrm{d}y.\)
Marginal probability density function
결합 분포(joint distribution)가 알려진 두 연속 확률 변수(random variable) X와 Y가 주어지면, 주변 확률 밀도 함수(probability density function)는 Y에 걸쳐 결합 확률(joint probability) 분포를 적분함으로써 얻을 수 있고, 그 반대도 마찬가지입니다. 즉,
\(\quad\displaystyle f_X(x)=\int_{c}^{d} f(x,y)dy,\) 및 \(\displaystyle f_Y(y)=\int_{a}^{b} f(x,y)dx\)
여기서 \(\displaystyle x\in[a,b]\), 및 \(\displaystyle y\in[c,d]\).
Marginal cumulative distribution function
결합 누적 분포 함수로부터 주변 누적 분포 함수(cumulative distribution function)를 찾는 것은 쉽습니다. 다음임을 회상하십시오:
- 이산 확률 변수(random variables)에 대해, \(\displaystyle F(x,y)=P(X\leq x,Y\leq y)\),
- 연속 확률 변수에 대해, \(\displaystyle F(x,y)=\int_{a}^{x}\int_{c}^{y}f(x',y')\,dy' dx'\).
만약 X와 Y가 [a, b] × [c, d]에서 값을 결합적으로 취하면,
\(\quad\displaystyle F_X(x)=F(x,d)\), \(\displaystyle F_Y(y)=F(b,y)\)
만약 d가 ∞이면, 이것은 극한 \(\displaystyle F_X(x)=\lim_{y \to \infty}F(x,y)\)이 됩니다. \(\displaystyle F_Y(y)\)도 마찬가지입니다.
Marginal distribution and independence
Definition
주변 분포 함수는 확률 변수 사이의 독립성의 특성화에 중요한 역할을 합니다. 두 확률 변수가 독립인 것과 그들의 결합 분포 함수가 그들의 주변 분포 함수의 곱과 같은 것은 필요충분 조건입니다:
- 이산 확률 변수에 대해, \(\displaystyle P(X\leq x,Y\leq y)=P(X\leq x)P(Y\leq y)\),
- 연속 확률 변수에 대해, \(\displaystyle f(x,y)=f_X(x)f_Y(y)\)
즉, 모든 가능한 값 x와 y에 대해,
\(\quad\displaystyle F(x,y)=F_X(x)F_Y(y)\).
examples
- 이산 확률 분포
X와 Y를 결합 분포를 가지는 두 이산 확률 변수로 놓습니다 (Table.2를 참조하십시오),
우리는 다음임을 이 테이블로부터 쉽게 결론을 내릴 수 있습니다:
\(\quad\displaystyle P_X(X\leq x_2)P_Y(Y\leq y_1)=\Big( \frac{2}{3}+\frac{1}{6} \Big) \times \frac{1}{2}=\frac{5}{12}=P(X\leq x_2,Y\leq y_1)\),
이것은 다음과 같습니다:
\(\quad\displaystyle F(x_2,y_1)=\frac{1}{12}+\frac{4}{12}=\frac{5}{12}= \Big( \frac{1}{6}+\frac{2}{3} \Big) \times\frac{1}{2}= F_X(x_2)F_Y(y_1)\).
따라서, 이산 확률 변수 X와 Y는 독립입니다.
- 연속 확률 변수
X 및 Y를 다음 주변 확률 함수
\(\quad\displaystyle F_X(x)=\begin{cases}0 & \text{if }x<0 \\ 1-exp(-x) & \text{if }x\geq0 \end{cases}\)
\(\quad\displaystyle F_Y(y)=\begin{cases} 0 & \text{if }y<0\\1-exp(-y) & \text{if }y\geq0 \end{cases}\)
를 가지고 다음 결합 확률 변수를 가지는 두 확률 변수(random variables)로 놓습니다:
\(\quad\displaystyle F_{X,Y}(x,y)=\begin{cases} 0 & \text{if }x<0\text{ or }y<0 \\ 1-exp(-x)-exp(-y)+exp(-x-y) & \text{if }x\geq0\text{ and }y\geq0 \end{cases}\)
다음임을 확인하는 것은 쉽습니다:
\(\quad\displaystyle F_{X,Y}(x,y)=F_X(x)F_Y(y)\)
Marginal distribution v.s conditional distribution
Definition
주변 확률은 단일 사건의 발생의 확률입니다. 주변 확률을 계산하는 것에서, 우리는 이차적인 변수 계산을 무시합니다. 본질에서, 우리는 하나의 독립 변수의 확률을 계산하고 있습니다. 조건부 확률(conditional probability)은 또 다른 특정 사건이 이미 발생한 것으로 주어졌을 때 사건이 발생할 확률입니다. 우리는 데이터의 더 큰 분포에 조건을 배치하는 것, 또는 한 변수에 대해 계산이 또 다른 변수에 의존한다고 말합니다.
주변 분포 사이의 관계는 보통 조건부 분포가 주변 분포로 나누는 결합 분포라고 말함으로써 설명됩니다. 즉,
- 이산 확률 변수에 대해, \(\displaystyle p_{Y|X}(y|x)=P(Y=y|X=x)=\frac{P(X=x,Y=y)}{P_X(x)}\),
- 연속 확률 변수에 대해, \(\displaystyle f_{Y|X}(y|x)=\frac{f_{X,Y}(x,y)}{f_X(x)}\).
Example
우리는 공부한 시간의 총량 (X)와 정답률 (Y) 사이에 200명의 학생의 교실에서 관계를 이해하려고 한다고 가정합니다. 우리는 X와 Y가, 각각, 공부한 시간의 총량과 정답률을 나타내는 이산 확률 변수라고 가정할 수 있습니다. 그런-다음 X와 Y의 결합 분포는, Table.3에서 보이는 것처럼, \(p(x_i,y_j)\)의 모든 가능한 값을 목록화함으로써 간단히 설명될 수 있습니다.
만약 우리가 시험에서 20점 아래의 점수를 받은 학생의 숫자가 얼마인지를 연구하기를 원한다면, 우리는 주변 분포를 계산해야 합니다. 그것을 통계적 문제로 번역하기 위해, 우리는 다음 방정식을 도출할 수 있습니다:
\(\quad\displaystyle p_Y(y_1)=P_Y(Y=y_1)=\sum_{i=1}^4P(x_i,y_1)=\frac{2}{200}+\frac{8}{200}=\frac{10}{200}\)
이것은 학생의 5%가 시험에서 20보다 낮은 점수를 얻음, 즉, 10명의 학생임을 의미합니다.
또 다른 경우에서, 만약 우리가 학생들이 60보다 많이 공부했지만 20보다 낮은 점수를 얻을 확률을 연구기를 원하면, 우리는 조건부 분포(conditional distribution)를 계산해야 합니다. 여기서, 주어진 조건은 그들 학생들이 60보다 많이 공부한 것, 즉, \(\displaystyle p_X(x_4)=P_X(X=x_4)= \frac{70}{200}\)입니다. 위에 주어진 방정식에 따르면, 우리는 다음임을 계산할 수 있습니다:
\(\quad\displaystyle p_{Y|X}(y_1|x_4)=P(Y=y_1|X=x_4)=\frac{P(X=x_4,Y=y_1)}{P(X=x_4)}=\frac{8}{70}=\frac{4}{35}\).
Real-world example
신호등에 주의를 기울이지 않고, 보행자 건널목에서 도로를 건널 때, 보행자가 자동차에 부딪힐 확률이 계산된다고 가정합니다. H를 {부딪힘, 안 부딪힘}에서 하나의 값을 취하는 이산 확률 변수(discrete random variable)로 놓습니다. L (신호등에 대해)을 {빨간색, 노란색, 녹색}에서 하나의 값을 취하는 이산 확률 변수로 놓습니다.
현실적으로, H는 L에 의존할 것입니다. 즉, P(H = 부딪힘)는 L이 빨간색, 노란색 또는 녹색인지 여부에 따라 다른 값을 취할 것입니다 (및 P(H = 안 부딪힘)의 경우도 마찬가지입니다). 한 사람이, 예를 들어, 사거리 교통 신호등이 빨간색인 것보다 녹색인 동안 건너려고 시도할 때 자동차에 부딪힐 가능성이 훨씬 높습니다. 다시 말해서, H와 L에 대해 임의의 주어진 가능한 쌍에 대해, 우리는 만약 보행자가 신호등의 상태를 무시하면, 함께 발생하는 사건의 해당 쌍의 확률을 찾기 위해 H와 L의 결합 확률 분포(joint probability distribution)를 반드시 고려해야 합니다.
어쨌든, 주변 확률 P(H = 부딪힘)를 계산하기 위해 시도하는 것에서, 우리가 요구하는 것은 우리가 실제로 L의 특정 값을 알지 못하고 보행자가 신호등의 상태를 무시하는 상황에서 H = 부딪힘의 확률입니다. 일반적으로, 보행자는 만약 신호등이 빨간색 또는 신호등이 노란색 또는 표시등이 녹색이면 부딪힐 수 있습니다. 따라서, 주변 확률에 대한 답은 L의 각 값이 발생할 확률에 의해 가중되는 것과 함께, L의 가능한 모든 값에 대해 P (H | L)를 합함으로써 구해질 수 있습니다.
다음은 신호등의 상태에 따라 부딪힐 조건부 확률을 보여주는 테이블입니다. (이 테이블의 열은 반드시 합해서 1이어야 하는데 왜냐하면 부딪힘 또는 안 부딪힘의 확률은 신호등의 상태에 관계없이 1이기 때문임에 주목하십시오.)
결합 확률 분포를 찾기 위해, 우리는 더 많은 데이터가 필요합니다. 예를 들어, P(L = 빨간색) = 0.2, P(L = 노란색) = 0.1, 및 P(L = 녹색) = 0.7이라고 가정합니다. 조건부 분포에서 각 열에 해당 열이 발생할 확률을 곱하면, 우리는 중앙 2×3 엔트리 블록에 주어진, H와 L의 결합 확률 분포를 찾습니다. (이 2×3 블록의 셀은 합해서 1이 됨에 주목하십시오.)
주변 확률 P (H = 부딪힘)은 이 결합 분포 테이블의 H = 부딪힘 행을 따라 합 0.572이며, 왜냐하면 이것은 신호등이 빨간색 또는 노란색 또는 녹색일 때 부딪힐 확률이기 때문입니다. 비슷하게, P(H = 안 부딪힘)의 확률은 H = 안 부딪힘 행을 따라 합입니다.
Multivariate distributions
다변수 분포(multivariate distributions)에 대해, 위의 그들과 비슷한 공식은 벡터로 해석되는 X 및/또는 Y 기호와 함께 적용됩니다. 특히, 각 합 또는 적분은 X에 포함된 변수를 제외한 모든 변수에 걸쳐입니다.
그것은 의미합니다, 만약 \(X_1,X_2,...,X_n\)이 이산 확률 변수(random variables)이면, 주변 확률 질량 함수(probability mass function)은 다음이어야 하며,
\(\quad\displaystyle p_{X_i}(k)=\sum p(x_1,x_2,...,x_{i-1},k,x_{i+1},...x_n)\);
만약 \(X_1,X_2,...,X_n\)이 연속 확률 변수(continuous random variables)이면, 주면 확률 밀도 함수(probability density function)는 다음이어야 합니다:
\(\quad\displaystyle f_{X_i}(x_i)=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty} f(x_1,x_2,...,x_n)dx_1dx_2...dx_{i-1}dx_{i+1}...dx_n\).
See also
Bibliography
- Everitt, B. S.; Skrondal, A. (2010). Cambridge Dictionary of Statistics. Cambridge University Press.
- Dekking, F. M.; Kraaikamp, C.; Lopuhaä, H. P.; Meester, L. E. (2005). A modern introduction to probability and statistics. London : Springer. ISBN 9781852338961.