전체 기대의 법칙(law of total expectation), 반복된 기대의 법칙(law of iterated expectations, 줄여서 LIE), 아담의 법칙(Adam's law), 탑 법칙(tower rule), 및 매끄러움 정리(smoothing theorem), 등으로 알려진 확률 이론에서 명제는 다음과 같이 설명합니다: 만약 \(X\)가 그것의 기댓값 \(\operatorname{E}(X)\)가 정의된 확률 변수(random variable)이고, \(Y\)가 같은 확률 공간(probability space) 위의 확률 변수이면, 다음과 같습니다:
\(\quad\displaystyle \operatorname{E} (X) = \operatorname{E} ( \operatorname{E} ( X \mid Y)),\)
즉, \(Y\)가 주어졌을 때 \(X\)의 조건부 기댓값(conditional expected value)의 기댓값(expected value)은 \(X\)의 기댓값과 같습니다.
하나의 특별한 경우는 \({\left\{A_i\right\}}_i\)가 표본 공간(sample space)의 유한하거나 셀-수-있는 분할(countable partition)이면, 다음과 같습니다:
\(\quad\displaystyle \operatorname{E} (X) = \sum_i{\operatorname{E}(X \mid A_i) \operatorname{P}(A_i)}.\)
주목: 조건부 기댓값 E(X | Z)는 그것의 값이 Z 값에 따라 달라지는 확률 변수입니다. 사건 Z = z가 주어졌을 때 X의 조건부 기댓값은 z의 함수임을 주목하십시오. 만약 우리가 E(X | Z = z) = g(z)라고 쓰면, 확률 변수 E(X | Z)는 g(Z)입니다. 조건부 공분산에도 비슷한 설명이 적용됩니다.
Example
단 두 개의 공장만이 전구를 시장에 공급한다고 가정합니다. 공장 \(X\)의 전구는 평균 5000시간 동안 작동하고, 반면 공장 \(Y\)의 전구는 평균 4000시간 동안 작동합니다. 공장 \(X\)는 사용 가능한 전체 전구의 60%를 공급하는 것으로 알려져 있습니다. 구매한 전구가 작동할 것으로 예상 시간은 얼마입니까?
전체 기대의 법칙을 적용하면 다음과 같습니다:
\(\begin{align}
\operatorname{E} (L) &= \operatorname{E}(L \mid X) \operatorname{P}(X)+\operatorname{E}(L \mid Y) \operatorname{P}(Y) \\[3pt]
&= 5000(0.6)+4000(0.4)\\[2pt]
&=4600
\end{align}\)
여기서
- \(\operatorname{E} (L)\)은 전구의 기대 수명입니다;
- \(\operatorname{P}(X)={6 \over 10}\)은 구매한 전구가 공장 \(X\)에서 제조된 확률입니다;
- \(\operatorname{P}(Y)={4 \over 10}\)은 구매한 전구가 공장 \(Y\)에서 제조된 확률입니다;
- \(\operatorname{E}(L \mid X)=5000\)은 \(X\)에서 제조한 전구의 기대 수명입니다;
- \(\operatorname{E}(L \mid Y)=4000\)은 \(Y\)에서 제조한 전구의 기대 수명입니다.
따라서 구입한 각 전구의 예상 수명은 4600시간입니다.
Proof in the finite and countable cases
같은 확률 공간 위에 정의된 확률 변수 \(X\)와 \(Y\)가 유한하거나 셀-수-있는 무한한 유한 값의 집합이라고 놓습니다. \(\operatorname{E}[X]\)가 정의된다, 즉, \(\min (\operatorname{E}[X_+], \operatorname{E}[X_-]) < \infty\)라고 가정합니다. 만약 \(\{A_i\}\)가 확률 공간 \(\Omega\)의 분할이면, 다음과 같습니다:
\(\quad\displaystyle \operatorname{E} (X) = \sum_i{\operatorname{E}(X \mid A_i) \operatorname{P}(A_i)}.\)
Proof.
\(\quad\displaystyle
\begin{align}
\operatorname{E} \left( \operatorname{E} (X \mid Y) \right) &= \operatorname{E} \Bigg[ \sum_x x \cdot \operatorname{P}(X=x \mid Y) \Bigg] \\[6pt]
&=\sum_y \Bigg[ \sum_x x \cdot \operatorname{P}(X=x \mid Y=y) \Bigg] \cdot \operatorname{P}(Y=y) \\[6pt]
&=\sum_y \sum_x x \cdot \operatorname{P}(X=x, Y=y).
\end{align}
\)
만약 급수가 유한하면, 우리는 합을 서로 전환할 수 있고, 이전 표현은 다음이 될 것입니다:
\(\quad\displaystyle
\begin{align}
\sum_x \sum_y x \cdot \operatorname{P}(X=x, Y=y)&=\sum_x x\sum_y \operatorname{P}(X=x, Y=y)\\[6pt]
&=\sum_x x \cdot \operatorname{P}(X=x)\\[6pt]
&=\operatorname{E}(X).
\end{align}
\)
만약, 다른 한편으로, 급수가 무한이면, \(\min (\operatorname{E}[X_+], \operatorname{E}[X_-] ) < \infty\)라는 가정으로 인해 그것의 수렴이 조건부(conditional)일 수 없습니다. 급수는 \(\operatorname{E}[X_+]\)와 \(\operatorname{E}[X_+]\)가 둘 다 유한하면 절대적으로 수렴하고, \(\operatorname{E}[X_+]\) 또는 \(\operatorname{E}[X_-]\) 중 하나가 무한하면 무한대로 발산합니다. 두 시나리오 모두에서, 위의 합은 합에 영향을 주지 않고 교환될 수 있습니다.
Proof in the general case
\( (\Omega,\mathcal{F},\operatorname{P}) \)를 두 개의 하위 \(\sigma\)-대수 \( \mathcal{G}_1 \subseteq \mathcal{G}_2 \subseteq \mathcal{F} \)가 정의된 확률 공간이라고 놓습니다. 그러한 공간 위에 확률 변수 \( X \)에 대해, 매끄러움 법칙은 다음과 같이 말합니다: 만약 \(\operatorname{E}[X]\)가 정의되면, 즉, \(\min(\operatorname{E}[X_+], \operatorname{E}[X_-])<\infty\)이면,
\(\quad\displaystyle \operatorname{E}[ \operatorname{E}[X \mid \mathcal{G}_2] \mid \mathcal{G}_1] = \operatorname{E}[X \mid \mathcal{G}_1]\quad\text{(a.s.)}.\)
Proof. 조건부 기대는 라돈–니코딤 도함수(Radon–Nikodym derivative)이므로, 다음 두 속성을 확인하면 매끄러움 법칙을 설립합니다:
- \( \operatorname{E}[ \operatorname{E}[X \mid \mathcal{G}_2] \mid \mathcal{G}_1] \mbox{ is } \mathcal{G}_1\)-measurable
- \( \int_{G_1} \operatorname{E}[ \operatorname{E}[X \mid \mathcal{G}_2] \mid \mathcal{G}_1] d\operatorname{P} = \int_{G_1} X d\operatorname{P},\) for all \(G_1 \in \mathcal{G}_1.\)
이들 속성 중 첫 번째는 조건부 기대의 정의에 따라 유지됩니다. 두 번째 것을 입증하기 위해,
\(\quad\displaystyle
\begin{align}
\min\left(\int_{G_1}X_+\, d\operatorname{P}, \int_{G_1}X_-\, d\operatorname{P}\right) &\leq \min\left(\int_\Omega X_+\, d\operatorname{P}, \int_\Omega X_-\, d\operatorname{P}\right)\\[4pt]
&=\min(\operatorname{E}[X_+], \operatorname{E}[X_-]) < \infty,
\end{align}
\)
따라서 적분 \(\textstyle \int_{G_1}X\, d\operatorname{P}\)가 정의됩니다 (\(\infty - \infty\)와 같지 않음).
두 번째 속성은 따라서 \(G_1 \in \mathcal{G}_1 \subseteq \mathcal{G}_2 \)가 다음을 의미하므로 유지됩니다:
\(\quad\displaystyle
\int_{G_1} \operatorname{E}[ \operatorname{E}[X \mid \mathcal{G}_2] \mid \mathcal{G}_1] d\operatorname{P}
= \int_{G_1} \operatorname{E}[X \mid \mathcal{G}_2] d\operatorname{P}
= \int_{G_1} X d\operatorname{P}.
\)
Corollary. \(\mathcal{G}_1 = \{\emptyset,\Omega \}\) 및 \(\mathcal{G}_2 = \sigma(Y)\)인 특수한 경우에서, 매끄러움 법칙은 다음과 같이 감소합니다:
\(\quad\displaystyle
\operatorname{E}[ \operatorname{E}[X \mid Y]] = \operatorname{E}[X].
\)
Alternative proof for \( \operatorname{E}[ \operatorname{E}[X \mid Y]] = \operatorname{E}[X].\)
이것은 조건부 기대(conditional expectation)에 대한 측정-이론적 정의의 간단한 결과입니다. 정의에 의해, \( \operatorname{E}[X \mid Y] := \operatorname{E}[X \mid \sigma(Y)] \)는 모든 각 측정-가능 집합 \( A \in \sigma(Y) \)에 대해 다음을 만족하는 \(\sigma(Y)\)-측정가능 확률 변수입니다:
\(\quad\displaystyle
\int_{A}\operatorname{E}[X \mid Y] d\operatorname{P} = \int_{A} X d\operatorname{P},
\)
\( A = \Omega \)를 취하면 주장을 입증합니다.
Proof of partition formula
\(\quad\displaystyle
\begin{align}
\sum\limits_i\operatorname{E}(X\mid A_i)\operatorname{P}(A_i)
&=\sum\limits_i\int\limits_\Omega X(\omega)\operatorname{P}(d\omega\mid A_i)\cdot\operatorname{P}(A_i)\\
&=\sum\limits_i\int\limits_\Omega X(\omega)\operatorname{P}(d\omega\cap A_i)\\
&=\sum\limits_i\int\limits_\Omega X(\omega)I_{A_i}(\omega)\operatorname{P}(d\omega)\\
&=\sum\limits_i\operatorname{E}(XI_{A_i}),
\end{align}
\)
여기서 \(I_{A_i}\)는 집합 \(A_i\)의 지시 함수(indicator function)입니다.
만약 분할 \({\{A_i\}}_{i=0}^n\)가 유한하면, 선형성에 의해, 이전 표현은 다음이 됩니다.
\(\quad\displaystyle
\operatorname{E}\left(\sum\limits_{i=0}^n XI_{A_i}\right)=\operatorname{E}(X),
\)
그리고 증명이 끝났습니다.
만약, 어쨌든, 분할 \({\{A_i\}}_{i=0}^\infty\)이 무한이면, 다음을 보이기 위해 지배 수렴 정리(dominated convergence theorem)를 사용합니다:
\(\quad\displaystyle
\operatorname{E}\left(\sum\limits_{i=0}^n XI_{A_i}\right)\to\operatorname{E}(X).
\)
실제로, 모든 각 \(n\geq 0\)에 대해,
\(\quad\displaystyle
\left|\sum_{i=0}^n XI_{A_i}\right|\leq |X|I_{\mathop{\bigcup}\limits_{i=0}^n A_i}\leq |X|.
\)
집합 \(\Omega\)의 모든 각 원소가 특정 파티션 \(A_i\)에 속하므로, 수열 \({\left\{\sum_{i=0}^n XI_{A_i}\right\}}_{n=0}^\infty\)가 \(X\)로 점별 수렴하는지 확인하는 것은 간단합니다. 초기 가정에 의해, \(\operatorname{E}|X|<\infty\)입니다. 지배 수렴 정리를 적용하면 원하는 결과를 얻을 수 있습니다.
References
- Billingsley, Patrick (1995). Probability and measure. New York: John Wiley & Sons. ISBN 0-471-00710-2. (Theorem 34.4)
- Christopher Sims, "Notes on Random Variables, Expectations, Probability Densities, and Martingales", especially equations (16) through (18)