본문 바로가기
영문 위키피디아 번역

(번역) Law of large numbers

by 다움위키 2024. 2. 27.
Original article: w:Law of large numbers

 

확률 이론(probability theory)에서, 큰 숫자의 법칙(law of large numbers, 줄여서 LLN)은 같은 실험을 횟수의 큰 숫자로 수행한 결과를 설명하는 정리(theorem)입니다. 그 법칙에 따르면, 큰 숫자의 시행으로부터 얻어진 결과의 평균(average)기댓값(expected value)에 반드시 가깝고 더 많은 시행이 수행될수록 점점 더 가까워지는 경향이 있습니다.

LLN은 어떤 확률 사건의 평균에 대해 안정된 장기 결과를 보장하기 때문에 중요합니다. 예를 들어, 카지노가 룰렛(roulette) 바퀴의 한 번의 회전에서 돈을 잃을 수도 있지만, 그의 수익은 큰 숫자의 회전에 걸쳐 예측-가능한 비율로 향하는 경향일 것입니다. 도박꾼에 의해 줄을-지나는 임의의 승리는 게임의 매개-변수에 의해 결국 극복될 수 있습니다. 그 법칙은 (이름에서 알 수 있듯이) 큰 숫자의 관측이 고려될 때 오직 적용된다는 것을 기억하는 것이 중요합니다. 작은 숫자의 관측이 기댓값과 일치 또는 한 값의 경향이 다른 값에 의해 즉시 "균형 잡힐" 것이라는 원칙은 없습니다 (도박꾼의 오류(gambler's fallacy)를 참조하십시오).

Examples

예를 들어, 공정한 육-면 주사위의 단일 굴림은 같은 확률(probability)을 갖는 숫자 1, 2, 3, 4, 5, 또는 6 중 하나를 생성합니다. 그러므로, 굴림의 평균의 기댓값은 다음입니다:

\(\quad\displaystyle  \frac{1+2+3+4+5+6}{6} = 3.5\)

많은 숫자의 법칙에 따르면, 육-면 주사위의 많은 숫자가 굴려지면, 그들의 값의 평균 (때때로 표본 평균(sample mean)으로 불림)이 3.5에 가깝게 될 것이며, 더 많은 주사위가 굴려짐에 따라 증가하는 정밀도를 가집니다.

일련의 베르누이 시행(Bernoulli trial)에서 성공의 경험적 확률(empirical probability)은 이론적 확률로 수렴할 것이라는 많은 숫자의 법칙에 따릅니다. 베르누이 확률 변수(Bernoulli random variable)에 대해, 기댓값은 이론의 이론적 확률이고, n 그러한 변수의 평균 (그들이 독립적이고 동일하게 분포된(independent and identically distributed, 줄여서 i.i.d.) 것으로 가정됨)은 정확하게 상대적 빈도입니다.

예를 들어, 공정한 동전(fair coin) 던지기는 베르누이 시행입니다. 공정한 동전은 한 번 뒤집힐 때, 결과가 앞면이 될 이론적 확률은 1/2과 같습니다. 그러므로, 많은 숫자의 법칙에 따르면, "큰" 숫자의 동전 던짐에서 앞면의 비율은 대략 1/2"이어야 합니다". 특히, n 던짐 후 앞면의 비율은 n이 무한대에 접근할 때 거의 확실하게(almost surely) 1/2로 수렴(converge)할 것입니다.

비록 앞면 (및 뒷면)의 비율이 1/2에 접근할지라도, 앞면 및 뒷면의 숫자에서 거의 확실하게 절대 차이(absolute difference)가 던짐의 숫자가 커짐에 따라 커질 것입니다. 즉, 절대 차이가 작은 숫자인 확률이 던짐의 숫자가 커짐에 따라 영에 접근합니다. 역시, 던짐의 숫자에 절대 차이의 거의 확실하게 비율은 영에 가까워질 것입니다. 직관적으로, 앞면의 예상된 숫자는 증가하지만, 던짐의 숫자가 증가함에 따라, 던짐의 숫자보다 더 느린 율로 증가합니다.

LLN의 또 다른 좋은 예제는 몬테-카를로 방법(Monte Carlo method)입니다. 이들 방법은 수치 결과를 얻기 위해 반복된 무작위 표본화(random sampling)에 의존하는 계산(computational) 알고리듬(algorithms)의 광범위한 클래스입니다. 반복의 더 큰 숫자가 더 좋은 근사가 될 경향입니다. 이 방법이 중요한 이유는 주로 다른 접근법을 사용은 것이 어렵거나 불가능하기 때문입니다.

Limitation

큰 숫자의 시행에서 얻어진 결과의 평균이 일부 경우에서 수렴에 실패할 수 있습니다. 예를 들어, 코시 분포(Cauchy distribution) 또는 일부 파레토 분포(Pareto distribution) (α<1)로부터 결과의 평균은 x가 커짐에 따라 수렴하지 않을 것입니다; 그 이유는 두꺼운 꼬리입니다. 코시 분포와 파레토 분포는 두 경우를 나타냅니다: 코시 분포는 기대를 가지지 않지만, 파레토 분포의 기대 (α<1)는 무한입니다. 또 다른 예제는 확률 숫자가 −90° 및 +90° 사이에 균등하게 분포된 각도의 접선(tangent)과 같은 것입니다. 중앙값(median)은 영이지만, 기댓값은 존재하지 않고, 실제로 n 그러한 변수의 평균은 하나의 그러한 변수와 같은 분포를 가집니다. n이 무한대로 갈 때 영 (또는 임의의 다른 값)을 향해 평균에서 수렴하지 않습니다.

History

이탈리아의 수학자 제롤라모 카르다노(Gerolamo Cardano) (1501–1576)는 경험적 통계의 정확성은 시행의 숫자와 함께 개선되는 경향이 있음을 증명없이 말했습니다. 이것은 그런-다음 큰 숫자의 법칙으로 공식화되었습니다. (이진 확률 변수에 대해) LLN의 특수한 형식은 야콥 베르누이(Jacob Bernoulli)에 의해 처음으로 입증되었습니다. 1713년에 그의 Ars Conjectandi (The Art of Conjecturing)에 출판되었던 충분하게 엄격한 수학적 증명을 개발하는 데 20년이 걸렸습니다. 그는 이것을 "골든 정리(Golden Theorem)"라고 이름-지었지만 일반적으로 "베르누이의 정리(Bernoulli's Theorem)"로 알려지게 되었습니다. 이것은 야곱 베르누이의 조카 다니엘 베르누이(Daniel Bernoulli)의 이름을 따서 지은, 베르누이의 원리(Bernoulli's principle)와 혼동해서는 안됩니다. 1837년에서, 시메몽 푸아송(S.D. Poisson)은 나아가 이름 "la loi des grands nombres" ("큰 숫자의 법칙") 아래에서 그것을 설명했습니다. 그 후, 두 이름 모두 아래에서 알려졌었지만, "큰 숫자의 법칙"이 가장 많이 사용됩니다.

베르누이와 푸아송이 그들의 노력을 발표한 후, 체비쇼프(Chebyshev), 마르코프(Markov), 보렐(Borel), 칸텔리(Cantelli)콜모고로프(Kolmogorov)킨친(Khinchin)을 포함한 다른 수학자들은 역시 법칙의 개선에 기여했습니다. 마르코프는 그 법칙이 다른 더 약한 가정 아래에서 유한 분산을 가지지 않는 확률 변수에 적용할 수 있음을 보였고, 킨친은 1929년에 만약 급수가 독립적으로 동일하게 분포된 확률 변수로 구성되면, 기댓값(expected value)이 참이 되는 큰 숫자의 더 약한 법칙에 대해 존재함에 충분함을 보였습니다. 이들 뒤따른 연구는 LLN의 두 현저한 형식을 낳았습니다. 하나는 "약한" 법칙이고 다른 하나는 "강한" 법칙으로 불리며, 누적 표본 평균이 기댓값으로의 수렴(convergence)의 두 가지 다른 모델의 참조에서; 특히, 아래에 설명된 것처럼, 강한 형식은 약한 것을 의미합니다.

Forms

아래에 설명되는 큰 숫자의 법칙의 두 가지 다른 버전이 있습니다. 그들은 큰 숫자의 강한 법칙큰 숫자의 약한 법칙으로 불립니다. \(X_1,X_2,...\)가 기댓값 \(text{E}(X_1)=\text{E}(X_2)=...=\mu\)를 갖는 i.i.d. 르베그 확률 변수의 무한 수열인 경우에 대해 말하자면, 법칙의 버전 둘 다는 – 가상 불확실성과 함께 – 표본 평균

\(\quad\displaystyle \overline{X}_n=\frac1n(X_1+\cdots+X_n) \)

은 기댓값 
\(\quad\displaystyle \begin{matrix}{}\\
\overline{X}_n \, \to \, \mu \qquad\textrm{for}\qquad n \to \infty,
\\{}\end{matrix}\cdots\bf{\rm (law. 1)}\)

으로 수렴한다고 말합니다.

(\(X_j\)의 르베그 적분-가능성은 기댓값 \(\text{E}(X_j)\)가 르베그 적분화(Lebesgue integration)에 따라 존재하고 유한함을 의미합니다. 결합된 확률 측정이 르베그 측정(Lebesgue measure)에 관한 절대적으로 연속(absolutely continuous)임을 의미하지는 않습니다.)

(모든 \(i\)에 대해) 유한 분산(variance) \( \operatorname{Var} (X_i)=\sigma^2 \) 및 확률 변수 사이의 비-상관의 가정에 기초하여, n 확률 변수의 평균의 분산

\(
\operatorname{Var}(\overline{X}_n) = \operatorname{Var}(\tfrac1n(X_1+\cdots+X_n)) = \frac{1}{n^2} \operatorname{Var}(X_1+\cdots+X_n) = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}.
\)

때때로 유한 분산(variance) \( \operatorname{Var}(X_1) = \operatorname{Var}(X_2) = \ldots = \sigma^2 < \infty \)의 가정은 필요하지 않습니다. 큰 또는 무한 분산은 수렴을 더 느리게 만들지만, LLN은 어쨌든 유지됩니다. 이 가정이 종종 사용되는데 왜냐하면 그것은 증명을 더 쉽고 짧게 만들기 때문입니다.

확률 변수의 서로 독립(Mutual independence)은 법칙의 두 버전에서 쌍별 독립(pairwise independence)에 의해 대체될 수 있습니다.

강한 버전과 약한 버전 사이의 차이는 주장되는 수렴의 모드와 관련됩니다. 이들 모드의 해석에 대해, 확률 변수의 수렴(Convergence of random variables)을 참조하십시오.

Weak law

큰 숫자의 약한 버전 (킨친(Khinchin)의 법칙으로 역시 불림)은 표본 평균은 기댓값을 향해 확률에서 수렴(converges in probability)한다고 말합니다:

\(\quad\displaystyle \begin{matrix}{}\\
    \overline{X}_n\ \xrightarrow{P}\ \mu \qquad\textrm{when}\ n \to \infty.
\\{}\end{matrix}\cdots\bf{\rm(law. 2)}\)

즉, 임의의 양의 숫자 ε에 대해,

\(\quad\displaystyle 
    \lim_{n\to\infty}\Pr\!\left(\,|\overline{X}_n-\mu| > \varepsilon\,\right) = 0.
  \)

이 결과를 해석하면, 약한 법칙은 아무리 작아도, 지정된 임의의 비-영 한계에 대해, 충분하게 큰 표본과 함께 관측의 평균이 기댓값에 근접할 매우 높은 확률이 있을 것임을 말합니다; 즉, 한계 안에 있습니다.

앞에서 언급했듯이, 약한 법칙은 i.i.d. 확률 변수의 경우에서 적용되지만, 일부 다른 경우에 역시 적용됩니다. 예를 들어, 분산이 급수에서 각 확률 변수에 대해 다를 수 있으며, 기댓값을 일정하게 유지합니다. 만약 분산이 경계지어지면, 그 법칙은, 체비쇼프(Chebyshev)에 의해 1867년 초에 보인 것처럼, 적용됩니다. (만약 기댓값이 급수 동안 변경되면, 우리는 그 법칙을 각각 기댓값으로부터 평균 편차에 간단히 적용할 수 있습니다. 그 법칙은 그런-다음 이것에 확률에서 영으로 수렴함을 말합니다.) 실제로, 체비쇼프의 증명은 n이 무한대로 갈 때 처음 n 값의 평균의 분산이 영으로 가는 한 작동합니다. 예제에서 처럼, 급수에서 각 확률 변수는 평균 영이지만, 경계지지 않은 \(2n/\log(n+1)\)와 같은 분산과 함께, 가우스 분포(Gaussian distribution)를 따릅니다. 각 단계에서, 평균은 (정규적으로 분포된 변수의 집합의 평균으로) 정규적으로 분포될 것입니다. 합의 분산은 분산의 합과 같으며, 이것은 \(n^2/\log n\)으로 점근적(asymptotic)입니다. 평균의 분산은 따라서 \(1/\log n\)으로 점근적이고 영으로 갑니다.

심지어 기댓값이 존재하지 않더라도, 적용되는 약한 법칙의 예제가 역시 있습니다. #Differences between the weak law and the strong law을 참조하십시오.

Strong law

큰 숫자의 강한 법칙은 표본 평균이 기댓값에 거의 확실하게 수렴(converges almost surely)함을 말합니다:

\(\quad\displaystyle \begin{matrix}{}\\
    \bar{X}_n\ \xrightarrow{\text{a.s.}}\ \mu \qquad\textrm{when}\ n \to \infty.
\\{}\end{matrix}\cdot\bf{\rm(law. 3)}\)

즉,

\(\quad\displaystyle 
    \Pr\!\left( \lim_{n\to\infty}\bar{X}_n = \mu \right) = 1.
  \)

이것이 의미하는 것은, 시행의 숫자 n이 무한대로 갈 때, 관측의 평균이 기댓값으로 수렴하는 확률은 1과 같음입니다.

증명은 약한 법칙의 그것보다 보다 복잡합니다. 이 법칙은 "장기 평균"으로 반복적으로 추출될 때 확률 변수의 (오직 르베그 적분화에 대해) 기댓값의 직관적 해석을 정당화합니다.

거의 확실하게 수렴은 확률 변수의 강한 수렴으로 역시 불립니다. 이 버전은 강한 법칙으로 불리는데 왜냐하면 (거의 확실하게) 강하게 수렴하는 확률 변수는 (확률에서) 약하게 수렴하기 위해 보장하기 때문입니다. 어쨌든, 약한 법칙은 강한 법칙이 유지되지 않고 그런-다음 수렴이 (확률에서) 오직 약한 것인 특정 조건에서 유지되는 것으로 알려져 있습니다. #Differences between the weak law and the strong law을 참조하십시오.

큰 숫자의 강한 법칙은 자체로 점별 인체-공학적 정리(pointwise ergodic theorem)의 특별한 경우로 보일 수 있습니다.

강한 법칙은 (약한 법칙과 같이) 기댓값을 가지는 독립적으로 동일하게 분포된 확률 변수에 적용됩니다. 이것은 1930년에 콜모고로프에 의해 입증되었습니다. 그것은 다른 경우들에서 역시 적용할 수 있습니다. 콜모고로프는 역시 1933년에 만약 변수가 독립 및 동일하게 분포된 것이면, 평균에 대해 거의 확실하게 어떤 것에 수렴하기 위해 (이것은 강한 법칙의 또 다른 명제로 여겨질 수 있음), 그들은 기댓값을 가져야 함을 보였습니다 (그리고 그런-다음 물론 평균은 그것으로 거의 확실하게 수렴합니다).

만약 피합수는 독립이지만 동일하게 분포된 것이 아니면, 

\(\quad\displaystyle 
    \bar{X}_n - \operatorname{E}\big[\bar{X}_n\big]\ \xrightarrow{\text{a.s.}}\ 0,
  \)

여기서 각 \(X_k\)는 유한 두 번째 모멘트이고 다음을 조건으로 합니다:

\(\quad\displaystyle 
    \sum_{k=1}^{\infty} \frac{1}{k^2} \operatorname{Var}[X_k] < \infty.
  \)

이 명제는 콜모고로프의 강한 법칙으로 알려져 있고, 예를 들어 Sen & Singer (1993, Theorem 2.3.10)를 참조하십시오.

약한 법칙은 적용되지만 강한 법칙은 적용되지 않는 급수의 에제는 \(X_k\)가 각각에 대해 확률 1/2을 갖는 (분모가 양이 되도록 충분하게 큰 k에서 시작하는) 양 또는 음 \(\sqrt{k/\log\log\log k}\)일 때입니다. \(X_k\)의 분산은 그런-다음 \(k/\log\log\log k\)입니다. 콜모고로프의 강한 법칙은 적용되지 않는데 왜냐하면 이 기준에서 k=n까지 부분 합은 \(\log n/\log\log\log n\)에 점근적이고 무-경계입니다.

만약 우리가 확률 변수를 같은 분산을 갖는 가우스 변수, 즉 \(\sqrt{k/\log\log\log k}\)로 바꾸면, 임의의 점에서 평균은 역시 정규적으로 분포될 것입니다. 평균의 분포의 폭은 영을 향하는 경향이 있지만 (표준 편차가 \(1/\sqrt{2\log\log\log n}\)로 점근적입니다), 주어진 ε에 대해, n과 함께 영으로 가지 않는 확률이 있지만, 때때로 n번째 시행 후 평균은 ε까지 되돌아갈 것입니다. 평균의 분포의 폭이 영이 아니므로, 양의 아래쪽 경계 p(ε)를 가져야 하며, 이것은 평균이 n 시행 후 ε에 도달할 적어도 p(ε)의 확률이 있음을 의미합니다. 그것은 n에 의존하는 어떤 m 전에 확률 p(ε)/2와 함께 발생할 것입니다. 그러나 심지어 m 이후에, 그것이 발생할 적어도 p(ε)의 확률이 여전히 있습니다. (이것은 p(ε)=1이고 평균이 무한 횟수 후에 ε에 도달할 것임을 나타내는 것처럼 보입니다.)

Differences between the weak law and the strong law

약한 법칙은 지정된 큰 n에 대해, 평균 \(\overline{X}_n\)은 μ에 가깝게 될 가능성이 높다고 말합니다. 따라서, \(|\overline{X}_n -\mu| > \varepsilon\)가, 비록 드문 구간에서 일지라도, 무한번 발생할 가능성을 열어둡니다. (모든 n에 대해 \(|\overline{X}_n -\mu| \neq 0\)일 필요는 없습니다).

강한 법칙은 이것이 거의 확실하게(almost surely) 발생하지 않을 것임을 보여줍니다. 특히, 그것은 확률 1과 함께, 우리는 임의의 ε > 0에 대해 부등식 \(|\overline{X}_n - \mu| < \varepsilon\)이 모든 충분하게 큰 n에 대해 유지됨을 가짐을 의미합니다.

강한 법칙은 다음 경우에서 유지되지 않지만, 약한 법칙은 유지됩니다.

1. X를 확률 1을 갖는 지수적으로(exponentially) 분포된 확률 변수로 놓습니다. 확률 변수 \(\sin(X)e^X X^{-1}\)는 르베그 적분화에 따라 기댓값을 가지지 않지만, 조건부 수렴과 부적절한 리만 적분(Riemann integral)인, 디리클레 적분(Dirichlet integral)으로 적분을 해석하면, 우리는 다음을 말할 수 있습니다:

\(\quad\displaystyle  E\left(\frac{\sin(X)e^X}{X}\right) =\ \int_{0}^{\infty}\frac{\sin(x)e^x}{x}e^{-x}dx = \frac{\pi}{2} \)

2. x를 확률 0.5를 갖는 기하(geometric) 분포로 놓습니다. 확률 변수 \(2^X(-1)^X X^{-1}\)는 관례적인 의미에서 기댓값을 가지지 않는데 왜냐하면 무한 급수(series)는 절대적으로 수렴하지 않지만, 조건부 수렴을 사용하여, 우리는 다음임을 말할 수 있기 때문입니다:

\(\quad\displaystyle  E\left(\frac{2^X(-1)^X}{X}\right) =\ \sum_{1}^{\infty}\frac{2^x(-1)^x}{x}2^{-x}=-\ln(2) \)

3. 만약 확률 변수의 누적 분포 함수가 다음이면

\(\quad\displaystyle  1-F(x)=\frac{e}{2x\ln(x)},x \ge e  \)

\(\quad\displaystyle   F(x)=\frac{e}{-2x\ln(-x)},x \le -e \)

\(\quad\)그것은 기댓값을 가지지 않지만, 약한 법칙은 참입니다.

Uniform law of large numbers

f(x,θ)가 θ ∈ Θ에 대해 정의된 어떤 함수(function)이고 θ에서 연속이라고 가정합니다. 그런-다음 임의의 고정된 θ에 대해, 수열 \(\{f(X_1,\theta), f(X_2, \theta), ...\}\)은 이 수열의 표본 평균이 확률에서 E[f(X,θ)]로 수렴하는 것을 만족하는, 독립 및 동일하게 분포된 확률 변수의 수열이 될 것입니다. 이것은 점별 (θ에서) 수렴입니다.

큰 숫자의 균등 법칙은 수렴이 θ에서 균등하게 발생하는 것 아래에서 조건을 말합니다. 만약 다음이면

  1. Θ는 컴팩트입니다.
  2. f(x,θ)는 거의 모든(almost all) x에 대해 각 θ ∈ Θ에서 연속이고, 각 θ에서 x의 측정-가능 함수입니다.
  3. E[d(X)] < ∞, 및 다음을 만족하는 지배하는(dominating) 함수 d(x)가 존재합니다:
    1. \( \left\| f(x,\theta) \right\| \leq d(x) \quad\text{for all}\ \theta\in\Theta.\)

그런-다음 E[f(X,θ)]는 θ에서 연속이고,

\(\quad\displaystyle 
    \sup_{\theta\in\Theta} \left\| \frac1n\sum_{i=1}^n f(X_i,\theta) - \operatorname{E}[f(X,\theta)] \right\| \xrightarrow{\mathrm{a.s.}} \ 0.
  \)

이 결과는 추정기의 많은 클래스의 일관성을 도출하기 위해 유용합니다 (극단값 추정기(Extremum estimator)를 참조하십시오).

Borel's law of large numbers

에밀 보렐(Émile Borel)의 이름을 딴, 큰 숫자의 보렐의 법칙은 만약 실험이 동일한 조건 아래에서 독립적으로, 횟수의 큰 숫자로 반복하면, 임의의 지정된 사건이 발생한 횟수의 비율이 임의의 시행에 대한 특정 사건의 확률과 근사적으로 같다고 말합니다; 반복의 더 큰 숫자가 커질수록, 더 좋은 근사가 되는 경향입니다. 보다 정확하게, 만약 E가 문제에서 사건, p는 그것의 발생 확률, 및 \(N_n(E)\)는 처음 n 시행에서 발생하는 횟수의 숫자 E를 나타내면, 확률 일과 함께,

\(\quad\displaystyle  \frac{N_n(E)}{n}\to p\text{ as }n\to\infty.\)

이 정리는 사건의 발생의 장기 상대 빈도로 확률의 직관적인 개념을 엄격하게 만듭니다. 그것은 확률 이론에서 큰 숫자의 여러 보다 일반적인 법칙의 임의의 것의 특별한 경우입니다.

체비쇼프의 부등식(Chebyshev's inequality). X를 유한 기댓값(expected value) μ와 유한 비-영 분산(variance) \(\sigma^2\)을 갖는 확률 변수(random variable)로 놓습니다. 그런-다음 임의의 실수(real number) k > 0에 대해,

\(\quad\displaystyle 
    \Pr(|X-\mu|\geq k\sigma) \leq \frac{1}{k^2}.
  \)

Proof of the weak law

유한 기댓값 \(E(X_1)=E(X_2)=...=\mu < \infty\)을 갖는 i.i.d. 확률 변수의 무한 수열 X1, X2, ...이 주어지면, 우리는 표본 평균의 수렴에 관심을 가집니다:

\(\quad\displaystyle \overline{X}_n=\tfrac1n(X_1+\cdots+X_n). \)

큰 숫자의 약한 법칙은 말합니다:
Theorem: \(\begin{matrix}{}\\
    \overline{X}_n\ \xrightarrow{P}\ \mu \qquad\textrm{when}\ n \to \infty.
\\{}\end{matrix}\cdots\bf{\rm(law. 2)}\)

Proof using Chebyshev's inequality assuming finite variance

이 증명은 유한 분산(variance) \( \operatorname{Var} (X_i)=\sigma^2 \) (모든 \(i\)에 대해)의 가정을 사용합니다. 확률 변수의 독립은 그들 사이의 비-상관을 의미하고, 우리는 다음임을 가집니다:

\(\quad\displaystyle 
\operatorname{Var}(\overline{X}_n) = \operatorname{Var}(\tfrac1n(X_1+\cdots+X_n)) = \frac{1}{n^2} \operatorname{Var}(X_1+\cdots+X_n) = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}.
\)

수열의 공통 평균 μ는 표본 평균의 평균입니다:

\(\quad\displaystyle 
E(\overline{X}_n) = \mu.
\)

\(\overline{X}_n \)에 대한 체비쇼프의 부등식(Chebyshev's inequality)을 사용하면 다음을 초래합니다:

\(\quad\displaystyle 
\operatorname{P}( \left| \overline{X}_n-\mu \right| \geq \varepsilon) \leq \frac{\sigma^2}{n\varepsilon^2}.
\)

이것은 다음을 획득하기 위해 사용될 수 있습니다:

\(\quad\displaystyle 
\operatorname{P}( \left| \overline{X}_n-\mu \right| < \varepsilon) = 1 - \operatorname{P}( \left| \overline{X}_n-\mu \right| \geq \varepsilon) \geq 1 - \frac{\sigma^2}{n \varepsilon^2 }.
\)

n이 무한대로 접근할 때, 표현은 1로 접근합니다. 그리고 확률에서 수렴(convergence in probability)의 정의에 의해, 우리는 다음을 획득합니다:

\(\quad\displaystyle  \begin{matrix}{}\\
    \overline{X}_n\ \xrightarrow{P}\ \mu \qquad\textrm{when}\ n \to \infty.
\\{}\end{matrix}\cdots\bf{\rm(law. 2)}\)

Proof using convergence of characteristic functions

복소 함수(complex function)에 대해 테일러의 정리(Taylor's theorem)에 의해, 유한 평균 μ를 갖는, 임의의 확률 변수의 특성 함수(characteristic function), X는 다음으로 쓰일 수 있습니다:

\(\quad\displaystyle \varphi_X(t) = 1 + it\mu + o(t), \quad t \rightarrow 0.\)

모든 \(X_1,X_2,...\)는 같은 특성 함수를 가지므로, 우리는 이것을 \(\varphi_X\)로 간단히 나타낼 것입니다.

특성 함수의 기본 속성 중에서 다음이 있습니다:

  • 만약 XY가 독립이면 \(\varphi_{\frac 1 n X}(t)= \varphi_X(\tfrac t n) \quad \text{and} \quad
     \varphi_{X+Y}(t)=\varphi_X(t) \varphi_Y(t) \quad \).

이들 규칙은 \(\varphi_X\)의 관점에서 \(\scriptstyle\overline{X}_n\)의 특성 함수를 계산하기 위해 사용될 수 있습니다:

\(\quad\displaystyle \varphi_{\overline{X}_n}(t)= \left[\varphi_X\left({t \over n}\right)\right]^n = \left[1 + i\mu{t \over n} + o\left({t \over n}\right)\right]^n \, \rightarrow \, e^{it\mu}, \quad \text{as} \quad n \rightarrow \infty.\)

극한 \(e^{it\mu}\)는 상수 확률 변수 μ의 특성 함수이고, 따라서 리비 연속성 정리(Lévy continuity theorem)에 의해, \( \scriptstyle\overline{X}_n\)는 μ로 분포에서 수렴(converges in distribution)합니다:

\(\quad\displaystyle \overline{X}_n \, \xrightarrow{\mathcal D} \, \mu \qquad\text{for}\qquad n \to \infty.\)

μ는 상수이며, 이것은 μ로 분포에서 수렴 및 μ로 확률에서 수렴이 동등함을 의미합니다 (확률 변수의 수렴(Convergence of random variables)을 참조하십시오). 그러므로,

\(\quad\displaystyle \begin{matrix}{}\\
    \overline{X}_n\ \xrightarrow{P}\ \mu \qquad\textrm{when}\ n \to \infty.
\\{}\end{matrix}\cdots\bf{\rm(law. 2)}\)

이것은 표본 평균이 원점에서 특성 함수의 도함수로, 그 값이 존재하는 한, 확률에서 수렴함을 보여줍니다.

Consequences

큰 숫자의 법칙은 수열의 실현으로부터의 알려지지 않은 분포뿐만 아니라, 확률 분포의 임의의 특징을 제공합니다. 큰 숫자의 보렐의 법칙(Borel's law of large numbers)을 적용함으로써, 우리는 확률 질량 함수를 쉽게 얻을 수 있습니다. 목적의 확률 질량 함수에서 각 사건에 대해, 우리는 임의의 지정된 사건이 발생하는 횟수의 비율로 사건의 발생의 확률을 근사화할 수 있습니다. 반복의 횟수가 커질수록, 근사가 더 좋습니다. 연속 경우: \(C=(a-h,a+h]\)에 대해, 작은 양의 h에 대해서 처럼, 따라서, 큰 n에 대해:

\( \frac{N_n(C)}{n}\thickapprox
p=P(X\in C)=\int_{a-h}^{a+h} f(x)dx 
\thickapprox
2hf(a)\)

이 방법과 함께, 우리는 그리드와 함께 (그리드 크기 2h와 함께) 전체 x-축을 덮고 히스토그램(histogram)으로 불리는 막대 그래프를 얻을 수 있습니다.

References

  • Grimmett, G. R.; Stirzaker, D. R. (1992). Probability and Random Processes, 2nd Edition. Clarendon Press, Oxford. ISBN 0-19-853665-8.
  • Richard Durrett (1995). Probability: Theory and Examples, 2nd Edition. Duxbury Press.
  • Martin Jacobsen (1992). Videregående Sandsynlighedsregning (Advanced Probability Theory) 3rd Edition. HCØ-tryk, Copenhagen. ISBN 87-91180-71-6.
  • Loève, Michel (1977). Probability theory 1 (4th ed.). Springer Verlag.
  • Newey, Whitney K.; McFadden, Daniel (1994). Large sample estimation and hypothesis testing. Handbook of econometrics, vol. IV, Ch. 36. Elsevier Science. pp. 2111–2245.
  • Ross, Sheldon (2009). A first course in probability (8th ed.). Prentice Hall press. ISBN 978-0-13-603313-4.
  • Sen, P. K; Singer, J. M. (1993). Large sample methods in statistics. Chapman & Hall, Inc.
  • Seneta, Eugene (2013), "A Tricentenary history of the Law of Large Numbers", Bernoulli, 19 (4): 1088–1121, arXiv:1309.6488, doi:10.3150/12-BEJSP12

External links