본문 바로가기
영문 위키피디아 번역

(번역) Variance

by 다움위키 2024. 4. 18.
Original article: w:Variance

 

확률 이론(probability theory)통계학(statistics)에서, 분산(variance)은 그의 평균(mean)으로부터 확률 변수의 제곱된 편차(deviation)기대(expectation)입니다. 비공식적으로, 그것은 (무작위) 숫자의 집합이 그들의 평균값으로부터 얼마나 멀리 퍼져 나가는지를 측정합니다. 분산은 통계에 중추적인 역할을 가지며, 여기서 그것을 사용하는 일부 아이디어는 기술 통계학(descriptive statistics), 통계적 추론(statistical inference), 가설 테스팅(hypothesis testing), 적합성(goodness of fit), 및 몬테 카를로 표본화(Monte Carlo sampling)를 포함합니다. 분산은 과학에서 중요한 도구이며, 여기서 데이터의 통계적 해석이 공통적입니다. 분산은 표준 편차(standard deviation), 분포의 두 번째 중심 모멘트(central moment), 및 그 자체를 가진 확률 변수의 공분산(covariance)의 제곱이고, 그것은 \(\sigma^2\), \(s^2\), 또는 \(\operatorname{Var}(X)\)으로 자주 나타냅니다.

Definition

확률 변수 \(X\)의 분산은 \(X\)의 평균(mean), \(\mu = \operatorname{E}[X]\)으로부터 제곱된 편차의 기댓값(expected value)입니다:

\(\quad  \operatorname{Var}(X) = \operatorname{E}\left[(X - \mu)^2 \right]. \)

이 정의는 이산(discrete), 연속(continuous), 둘 다 아닌 것(neither), 혼합인 프로세스에 의해 생성되는 확률 변수를 포함합니다. 분산은 역시 그 자체를 가진 확률 변수의 공분산으로 생각될 수 있습니다:

\(\quad \operatorname{Var}(X) = \operatorname{Cov}(X, X).\) 

분산은 \(X\)를 생성하는 확률 분포의 두 번째 누적(cumulant)과 역시 동등합니다. 분산은 전형적으로 \(\operatorname{Var}(X)\), \(\sigma^2_X\), 또는 간단히 \(\sigma^2\) ("시그마(sigma) 제곱"으로 발음함)으로 지정됩니다. 분산에 대해 표현은 다음으로 확장될 수 있습니다:

\(\quad \begin{align}
\operatorname{Var}(X) &= \operatorname{E}\left[(X - \operatorname{E}[X])^2\right] \\[4pt]
&= \operatorname{E}\left[X^2 - 2X\operatorname{E}[X] + \operatorname{E}[X]^2\right] \\[4pt]
&= \operatorname{E}\left[X^2\right] - 2\operatorname{E}[X]\operatorname{E}[X] + \operatorname{E}[X]^2 \\[4pt]
&= \operatorname{E}\left[X^2 \right] - \operatorname{E}[X]^2
\end{align}\)

달리 말해서, X의 분산은 X의 제곱의 평균에서 X의 평균의 제곱을 뺀 값과 같습니다. 이 방정식은 부동 소수점 산술(floating point arithmetic)을 사용하여 계산에 절대 사용되어서는 안되는데, 왜냐하면 만약 방정식의 두 성분이 크기에서 비슷하면 치명적 취소(catastrophic cancellation)를 겪기 때문입니다. 수치적으로 안정적인 대안들(numerically stable alternatives)이 존재합니다.

Discrete random variable

만약 \(X\)의 확률 변수의 생성기가 확률 질량 함수(probability mass function) \(x_1 \mapsto p_1, x_2 \mapsto p_2, \ldots, x_n \mapsto p_n\)를 가진 이산(discrete)이면

\(\quad\displaystyle \operatorname{Var}(X) = \sum_{i=1}^n p_i\cdot(x_i - \mu)^2,\)

또는 동등하게

\(\quad\displaystyle \operatorname{Var}(X) = \left(\sum_{i=1}^n p_i x_i ^2\right) - \mu^2,\)

여기서 \(\mu\)는 기댓값입니다. 즉,

\(\quad\displaystyle \mu = \sum_{i=1}^n p_i x_i .\)

(그러한 이산 가중된 분산(weighted variance)이 그의 합이 1이 아닌 가중값에 의해 지정될 때, 우리는 가중값의 합으로 나눕니다.)

\(n\) 같은 가능성 값의 집합의 분산은 다음으로 쓰일 수 있습니다:

\(\quad\displaystyle  \operatorname{Var}(X) = \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2, \)

여기서 \(\mu\)는 기댓값입니다. 즉,

\(\quad\displaystyle \mu = \frac{1}{n}\sum_{i=1}^n x_i .\)

\(n\) 같은 가능성 값의 집합의 분산은 서로로부터 모든 점의 제곱된 편차의 관점에서, 평균에 대한 직접 참조없이, 동등하게 표현될 수 있습니다:

\(\quad\displaystyle  \operatorname{Var}(X) = \frac{1}{n^2} \sum_{i=1}^n \sum_{j=1}^n \frac{1}{2}(x_i - x_j)^2 = \frac{1}{n^2}\sum_i \sum_{j>i} (x_i-x_j)^2. \)

Absolutely continuous random variable

만약 확률 변수 \(X\)가 확률 밀도 함수(probability density function) \(f(x)\)를 가지고, \(F(x)\)가 대응하는 누적 분포 함수(cumulative distribution function)이면,

\(\quad\displaystyle \begin{align}
   \operatorname{Var}(X) = \sigma^2 &= \int_{\mathbb{R}} (x-\mu)^2 f(x) \, dx \\[4pt]
     &= \int_{\mathbb{R}} x^2f(x)\,dx -2\mu\int_{\mathbb{R}} xf(x)\,dx + \int_{\mathbb{R}} \mu^2 f(x)\,dx \\[4pt]
     &= \int_{\mathbb{R}} x^2 \,dF(x) - 2 \mu \int_{\mathbb{R}} x \,dF(x) + \mu^2 \int_{\mathbb{R}} \,dF(x) \\[4pt]
     &= \int_{\mathbb{R}} x^2 \,dF(x) - 2 \mu \cdot \mu + \mu^2 \cdot 1 \\[4pt]
     &= \int_{\mathbb{R}} x^2 \,dF(x) - \mu^2,
 \end{align}\)

또는 동등하게,

\(\quad\displaystyle \operatorname{Var}(X) = \int_{\mathbb{R}} x^2 f(x) \,dx - \mu^2 ,\)

여기서 \(\mu\)은 다음으로 제공되는 \(X\)의 기댓값입니다:

\(\quad\displaystyle \mu = \int_{\mathbb{R}} x f(x) \, dx = \int_{\mathbb{R}} x \, d F(x). \)

이들 공식에서, \(dx\) 및 \(dF(x)\)에 관한 적분은, 각각, 르베그(Lebesgue)르베그–스틸티어스(Lebesgue–Stieltjes) 적분입니다.

만약 함수 \(x^2f(x)\)가 모든 각 유한 구간 \([a,b]\subset\mathbb{R}\) 위에 리만-적분가능(Riemann-integrable)이면, 

\(\quad\displaystyle \operatorname{Var}(X) = \int^{+\infty}_{-\infty} x^2 f(x) \, dx - \mu^2, \)

여기서 적분은 부적절한 리만 적분(improper Riemann integral)입니다.

Examples

Exponential distribution

매개변수 λ를 가진 지수 분포(exponential distribution)는 그의 확률 밀도 함수(probability density function)가 구간 [0, ∞) 위에서 다음으로 제공되는 연속 분포입니다:

\(\quad f(x) = \lambda e^{-\lambda x}\)

그의 평균은 다음으로 표현될 수 있습니다:

\(\quad\displaystyle \operatorname{E}[X] = \int_0^\infty \lambda xe^{-\lambda x} \, dx = \frac{1}{\lambda}.\)

부분에 의한 적분(integration by parts)을 사용하고 이미 계산된 기댓값을 사용함으로써:

\(\quad\displaystyle \begin{align}
   \operatorname{E}[X^2] &= \int_0^\infty \lambda x^2 e^{-\lambda x} \, dx \\
   &= \left[ -x^2 e^{-\lambda x} \right]_0^\infty + \int_0^\infty 2xe^{-\lambda x} \,dx \\
   &= 0 + \frac{2}{\lambda}\operatorname{E}[X] \\
   &= \frac{2}{\lambda^2}.
 \end{align}\)

따라서, X의 적분은 다음으로 제공됩니다:

\(\quad\displaystyle \operatorname{Var}(X) = \operatorname{E}[X^2] - \operatorname{E}[X]^2 = \frac{2}{\lambda^2} - \left(\frac{1}{\lambda}\right)^2 = \frac{1}{\lambda^2}.\)

Fair die

공정한 육-면체 주사위는, 각각 같은 확률 1/6을 가진, 1에서 6까지의 결과를 가진, 이산 확률 변수, X로 모델링될 수 있습니다. X의 기댓값은 \((1 + 2 + 3 + 4 + 5 + 6)/6 = 7/2\)입니다. 그러므로, X의 분산은 다음입니다:

\(\quad\displaystyle \begin{align}
   \operatorname{Var}(X) &= \sum_{i=1}^6 \frac{1}{6}\left(i - \frac{7}{2}\right)^2 \\[5pt]
   &= \frac{1}{6}\left((-5/2)^2 + (-3/2)^2 + (-1/2)^2 + (1/2)^2 + (3/2)^2 + (5/2)^2\right) \\[5pt]
   &= \frac{35}{12} \approx 2.92.
 \end{align}\)

n-면체 주사위의 결과, X의 분산에 대해 일반적인 공식은 다음입니다:

\(\quad\displaystyle \begin{align}
   \operatorname{Var}(X) &= \operatorname{E}(X^2)-(\operatorname{E}(X))^2 \\[5pt]
   &= \frac{1}{n}\sum_{i=1}^n i^2 - \left(\frac{1}{n}\sum_{i=1}^n i\right)^2 \\[5pt]
   &= \frac{(n + 1)(2n + 1)}{6} - \left(\frac{n + 1}{2}\right)^2 \\[4pt]
   &= \frac{n^2 - 1}{12}.
 \end{align}\)

Commonly used probability distributions

다음 테이블은 일부 공통적으로 사용되는 확률 분포에 대해 분산을 목록화한 것입니다.

Properties

Basic properties

분산은 비-음수인데 왜냐하면 제곱은 양수 또는 영이기 때문입니다:

\(\quad \operatorname{Var}(X)\ge 0.\)

상수의 분산은 영입니다:

\(\quad \operatorname{Var}(a) = 0.\)

만약 확률 변수의 분산이 영이면, 그것은 상수입니다. 즉, 그것은 항상 같은 값을 가집니다:

\(\quad \operatorname{Var}(X)= 0 \iff \exists a : P(X=a) = 1.\)

분산은 위치 매개변수(location parameter)에서 변화의 관점에서 불변(invariant)입니다. 즉, 만약 상수가 변수의 모든 값에 더해지면, 분산은 변경되지 않습니다:

\(\quad \operatorname{Var}(X+a)=\operatorname{Var}(X).\)

만약 모든 값이 상수에 의해 스케일되면, 분산은 그 상수의 제곱으로 스케일됩니다:

\(\quad \operatorname{Var}(aX)=a^2\operatorname{Var}(X).\)

두 확률 변수의 합의 분산은 다음으로 제공됩니다:

\(\quad \operatorname{Var}(aX+bY)=a^2\operatorname{Var}(X)+b^2\operatorname{Var}(Y)+2ab\, \operatorname{Cov}(X,Y),\)

\(\quad \operatorname{Var}(aX-bY)=a^2\operatorname{Var}(X)+b^2\operatorname{Var}(Y)-2ab\, \operatorname{Cov}(X,Y),\)

여기서 \(\operatorname{Cov}(X,Y)\)는 공분산(covariance)입니다. 일반적으로 우리는 \(N\) 확률 변수 \(\{X_1,\dots,X_N\}\)의 합에 대해 다음을 가집니다:

\(\quad\displaystyle \operatorname{Var}\left(\sum_{i=1}^N X_i\right)=\sum_{i,j=1}^N\operatorname{Cov}(X_i,X_j)=\sum_{i=1}^N\operatorname{Var}(X_i)+\sum_{i\ne j}\operatorname{Cov}(X_i,X_j).\)

이들 결과는 다음으로 선형 조합(linear combination)의 분산으로 이어집니다:

\(\quad\displaystyle 
\begin{align}
\operatorname{Var}\left( \sum_{i=1}^N a_iX_i\right) &=\sum_{i,j=1}^{N} a_ia_j\operatorname{Cov}(X_i,X_j) \\
&=\sum_{i=1}^N a_i^2\operatorname{Var}(X_i)+\sum_{i\not=j}a_ia_j\operatorname{Cov}(X_i,X_j)\\
& =\sum_{i=1}^N a_i^2\operatorname{Var}(X_i)+2\sum_{1\le i<j\le N}a_ia_j\operatorname{Cov}(X_i,X_j).
\end{align}
\)

만약 확률 변수 \(X_1,\dots,X_N\)가 다음을 만족하면:

\(\quad \operatorname{Cov}(X_i,X_j)=0\ ,\ \forall\ (i\ne j) ,\)

그것들은 비-상관(uncorrelated)이라고 말합니다. 그것은 이전에 제공된 표현으로부터 즉시 따르는데, 만약 확률 변수 \(X_1,\dots,X_N\)가 비-상관이면, 그들 합의 분산은 그들 분산의 합과 같습니다. 또는, 기호적으로 다음으로 표현됩니다:

\(\quad\displaystyle \operatorname{Var}\left(\sum_{i=1}^N X_i\right)=\sum_{i=1}^N\operatorname{Var}(X_i).\)

독립 확률 변수는 항상 비-상관(independent random variables are always uncorrelated)이므로, 위의 방정식은 특히 확률 변수 \(X_1,\dots,X_n\)가 독립일 때 유지됩니다. 따라서 독립성은, 합의 분산이 분산의 합과 같아지는 것에 대해, 충분이지만 필요는 아닙니다.

Issues of finiteness

만약, 분포가, 코시 분포(Cauchy distribution)에 대해 경우에서 처럼, 유한 기댓값을 가지지 않으면, 분산은 어느 쪽도 절대 유한일 수 없습니다. 어쨌든, 일부 분포는, 그들 기댓값이 유한임에도 불구하고, 유한 분산을 가지지 않을 수 있습니다. 예제는 그의 인덱스(index) \(k\)가 \(1 < k \leq 2\)을 만족시키는 파레토 분포(Pareto distribution)입니다.

Sum of uncorrelated variables (Bienaymé formula)

흩어짐의 다른 측정에 대한 선호에서 분산의 사용에 대해 한 가지 이유는 비-상관(uncorrelated) 확률 변수의 합 (또는 차이)의 분산이 그들 분산의 합이기 때문입니다:

\(\quad\displaystyle \operatorname{Var}\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n \operatorname{Var}(X_i).\)

이 명제는 비아내메(Bienaymé) 공식으로 불리고 1853년 발견되었습니다. 그것은 변수가 독립(independent)이지만, 비-상관에 충분한 것인 더 강한 조건을 종종 만듭니다. 그래서 만약 모든 변수가 같은 분산 \(\sigma^2\)을 가지면, n에 의한 나눗셈은 선형 변환이며, 이 공식은 바로 그들의 평균의 분산이 다음임을 의미합니다:

\(\quad\displaystyle \operatorname{Var}\left(\overline{X}\right) = \operatorname{Var}\left(\frac {1} {n} \sum_{i=1}^n X_i\right) = \frac {1} {n^2}\sum_{i=1}^n \operatorname{Var}\left(X_i\right) = \frac {1} {n^2}n\sigma^2= \frac {\sigma^2} {n}.\)

즉, 평균의 분산이 n이 증가할 때 감소합니다. 평균의 분산에 대해 이 공식은 중심 극한 정리(central limit theorem)에 사용되는 표본 평균의 표준 오차(standard error)의 정의에 사용됩니다.

초기 명제를 입증하기 위해, 그것은 다음임을 보이는 것으로 충분합니다:

\(\quad \operatorname{Var}(X+Y) = \operatorname{Var}(X)+\operatorname{Var}(Y).\)

일반적인 결과는 그런-다음 귀납법에 의해 따릅니다. 정의로부터 시작하면,

\(\quad \begin{align}
   \operatorname{Var}(X+Y) &= \operatorname{E}[(X+Y)^2] - (\operatorname{E}[X+Y])^2 \\[5pt]
    &= \operatorname{E}[X^2+2XY+Y^2] - (\operatorname{E}[X]+\operatorname{E}[Y])^2.
 \end{align}\)

기대 연산자의 선형성과 XY의 독립성 (또는 비-상관성)의 가정을 사용하면, 이것은 다음으로 더 단순화됩니다:

\(\quad \begin{align}
   \operatorname{Var}(X + Y) &= \operatorname{E}[X^2]+2\operatorname{E}[XY]+\operatorname{E}[Y^2] - (\operatorname{E}[X]^2+2\operatorname{E}[X]\operatorname{E}[Y]+\operatorname{E}[Y]^2) \\[5pt]
   &= \operatorname{E}[X^2] + \operatorname{E}[Y^2] - \operatorname{E}[X]^2 - \operatorname{E}[Y]^2 \\[5pt]
   &= \operatorname{Var}(X) + \operatorname{Var}(Y).
 \end{align}\)

Sum of correlated variables

With correlation and fixed sample size

일반적으로 n 변수의 합의 분산은 그들의 공분산(covariance)의 합입니다:

\(\quad\displaystyle \operatorname{Var}\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n \sum_{j=1}^n \operatorname{Cov}(X_i, X_j) = \sum_{i=1}^n \operatorname{Var}(X_i) + 2\sum_{1\le i<j\le n}\operatorname{Cov}(X_i,X_j).\)

(주목: 두 번째 상등은 \(\text{Cov}(X_i, X_i)= \text{Var}(X_i)\)라는 사실에서 비롯됩니다.)

여기서 \(\operatorname{Cov}(X_i,X_j)\)는 공분산(covariance)이며, 이것은 (만약 그것이 존재하면) 독립 확률 변수에 대해 영입니다. 공식은 합의 분산이 성분의 공분산 행렬에서 모든 원소의 합과 같음을 말합니다. 다음 표현은 합의 분산이 공분산 행렬의 대각 원소의 합에 그의 높은 삼각 원소 (또는 낮은 삼각 원소)의 합의 두 배를 더한 것임을 동등하게 말합니다; 이것은 공분산 행렬이 대칭임을 강조합니다. 이 공식은 고전적 테스트 이론(classical test theory)에서 크론바흐의 알파(Cronbach's alpha)의 이론에서 사용됩니다.

그래서 만약 변수가 같은 분산 \(\sigma^2\)을 가지고 구별되는 변수의 평균 상관(correlation)ρ이면 그들의 평균의 분산은 다음입니다:

\(\quad\displaystyle \operatorname{Var}(\overline{X}) = \frac {\sigma^2} {n} + \frac {n-1} {n} \rho \sigma^2.\)

이것은 평균의 분산이 상관의 평균에 함께 증가함을 의미합니다. 다시 말해서, 추가적인 상관 관측은 평균의 불확실성(uncertainty of the mean)을 줄이는 것에서 추가적인 독립 관측만큼 효과적이지 않습니다. 게다가, 만약 변수가 단위 분산을 가지면, 예를 들어 만약 그들이 표준화되면, 이것은 다음으로 단순화됩니다:

\(\quad\displaystyle \operatorname{Var}(\overline{X}) = \frac {1} {n} + \frac {n-1} {n} \rho.\)

이 공식은 고전적 테스트 이론의 스피어만–브라운 예측 공식(Spearman–Brown prediction formula)에서 사용됩니다. 이것은, 평균 상관이 상수로 유지 또는 역시 수렴하는 것으로 제공되고, 만약 n이 무한대로 가면, ρ로 수렴합니다. 그래서 같은 상관 또는 수렴하는 평균 상관을 갖는 표준화된 변수의 평균의 분산에 대해 우리는 다음을 가집니다:

\(\quad\displaystyle  \lim_{n \to \infty} \operatorname{Var}(\overline{X}) = \rho.\)

그러므로, 표준화된 변수의 큰 숫자의 평균의 분산은 그들의 평균 상관과 근사적으로 같습니다. 이것은, 비록 큰 숫자의 법칙(law of large numbers)이 표본 평균이 독립 변수에 대해 수렴할 것이라고 말할지라도, 상관된 변수의 표본 평균이 일반적으로 모집단 평균에 수렴하지 않음을 분명하게 합니다.

I.i.d. with random sample size

표본이 지식없이 취할 때, 나아가서, 일부 기준에 따라 얼마나 많은 관찰이 수용될 수 있을지 같은 경우가 있습니다. 그러한 경우에서, 표본 크기 N은, 다음을 만족하는, 그의 변화가 X의 변화에 더해지는 확률 변수입니다:

\(\quad \text{Var}(\sum \mathbf{X}) = \text{E}(\mathbf{N})\text{Var}(\mathbf{X})+\text{Var}(\mathbf{N})\text{E}^2(\mathbf{X}).\)

만약 N푸아송 분포(Poisson distribution)를 가지면, 추정량 N=n을 가진 E(N) = Var(N)입니다. 따라서, Var(∑X)의 추정량은 다음을 제공하는 \(nS^2_X + n\bar{X}^2\)이 됩니다:

Matrix notation for the variance of a linear combination

\(X\)를 \(n\) 확률 변수 \(X_1, \ldots,X_n\)의 열 벡터, \(c\)를 \(n\) 스칼라 \(c_1, \ldots,c_n\)의 열 벡터로 정의하십시오. 그러므로, \(c^T X\)는 이들 확률 변수의 선형 조합(linear combination)이며, 여기서 \(c^T\)는 \(c\)의 전치(transpose)를 나타냅니다. 역시 \(\Sigma\)를 \(X\)의 공분산 행렬(covariance matrix)로 놓습니다. \(c^TX\)의 분산은 그런-다음 다음으로 제공됩니다:

\(\quad \operatorname{Var}(c^T X) = c^T \Sigma c .\)

이것은 평균의 분산이 (그것들의 열 벡터와 함께) 다음으로 쓰일 수 있음을 의미합니다:

\(\quad \operatorname{Var}(\bar{x}) = \operatorname{Var}(1/n\cdot 1'X) =1/n^2\cdot
1'\Sigma 1.\)

Weighted sum of variables

공분산(covariance) Cov(aXbY) = ab Cov(XY)의 속성과 함께 스케일링 속성과 비아내메 공식은 다음임을 결합적으로 의미합니다:

\(\quad \operatorname{Var}(aX \pm bY) =a^2 \operatorname{Var}(X) + b^2 \operatorname{Var}(Y) \pm 2ab\, \operatorname{Cov}(X, Y).\)

이것은, 변수의 가중된 합에서, 가장 큰 가중값을 가진 변수는 전체의 분산에서 반비례적으로 큰 가중값을 가질 것임을 의미합니다. 예를 들어, 만약 XY가 비-상관이고 X의 가중값이 Y의 가중값의 두 배이면, X의 분산의 가중값은 Y의 분산의 가중값의 네 배가 될 것입니다.

위의 표현은 여러 변수의 가중된 합으로 확장될 수 있습니다:

\(\quad\displaystyle \operatorname{Var}\left(\sum_{i}^n a_iX_i\right) = \sum_{i=1}^na_i^2 \operatorname{Var}(X_i) + 2\sum_{1\le i}\sum_{<j\le n}a_ia_j\operatorname{Cov}(X_i,X_j)\)

Product of independent variables

두 변수 XY독립(independent)이면, 그들 곱의 분산은 다음으로 제공됩니다:

\(\quad
\begin{align}
\operatorname{Var}(XY) &= [\operatorname{E}(X)]^2 \operatorname{Var}(Y) + [\operatorname{E}(Y)]^2 \operatorname{Var}(X) + \operatorname{Var}(X)\operatorname{Var}(Y).
\end{align}
\)

동등하게, 기대의 기본 속성을 사용하여, 그것은 다음으로 제공됩니다:

\(\quad
\operatorname{Var}(XY) = \operatorname{E}(X^2) \operatorname{E}(Y^2) - [\operatorname{E}(X)]^2 [\operatorname{E}(Y)]^2.
\)

Product of statistically dependent variables

일반적으로, 만약 두 변수가 통계적으로 종속이면, 그들의 곱의 분산은 다음으로 제공됩니다:

\(\quad
\begin{align}
\operatorname{Var}(XY) = {} & \operatorname{E}[X^2 Y^2 ]-[\operatorname{E}(XY)]^2 \\[5pt]
= {} & \operatorname{Cov}(X^2,Y^2 )+\operatorname{E}(X^2)\operatorname{E}(Y^2) - [\operatorname{E}(XY)]^2 \\[5pt]
= {} & \operatorname{Cov}(X^2, Y^2) +(\operatorname{Var}(X)+[\operatorname{E}(X)]^2 )(\operatorname{Var}(Y)+[\operatorname{E}(Y)]^2 ) \\[5pt]
& {}-[\operatorname{Cov}(X,Y)+\operatorname{E}(X)\operatorname{E}(Y)]^2
\end{align}\)

Decomposition

분산 분해 또는 전체 분산의 법칙(law of total variance)에 대해 일반적인 공식은 다음입니다: 만약 \(X\)와 \(Y\)가 두 확률 변수이고, \(X\)의 분산이 존재하면, 

\(\quad \operatorname{Var}[X]=\operatorname{E}(\operatorname{Var}[X\mid Y])+\operatorname{Var}(\operatorname{E}[X\mid Y]).\)

주어진 \(Y\)에 대한 \(X\)의 조건부 기대(conditional expectation) \(\operatorname E(X\mid Y)\), 및 조건부 분산(conditional variance) \(\operatorname{Var}(X\mid Y)\)은 다음으로 이해될 것입니다. 확률 변수 Y의 임의의 특정 값 y가 주어지면, 주어진 사건 Y = y에 대한 조건부 기대 \(\operatorname E(X\mid Y=y)\)가 있습니다. 이 양은 특정 값 y에 의존합니다; 그것은 함수 \( g(y) = \operatorname E(X\mid Y=y)\)입니다. 확률 변수 Y에서 평가된 그 같은 함수는 조건부 기대 \(\operatorname E(X\mid Y) = g(Y)\)입니다.

특히, 만약 \(Y\)가 가능한 값 \(y_1, y_2, y_3 \ldots\)과 대응하는 확률 \(p_1, p_2, p_3 \ldots\)을 가정하는 이산 확률 변수이면, 전체 분산에 대해 공식에서, 오른쪽 변에 대한 첫 번째 항은 다음이 됩니다:

\(\quad\displaystyle \operatorname{E}(\operatorname{Var}[X \mid Y]) = \sum_i p_i \sigma^2_i,\)

여기서 \(\sigma^2_i = \operatorname{Var}[X \mid Y = y_i]\)입니다. 비슷하게, 오른쪽 변에 대한 두 번째 항은 다음이 됩니다:

\(\quad\displaystyle \operatorname{Var}(\operatorname{E}[X \mid Y]) = \sum_i p_i \mu_i^2 - \left(\sum_i p_i \mu_i\right)^2 = \sum_i p_i \mu_i^2 - \mu^2,\)

여기서 \(\mu_i = \operatorname{E}[X \mid Y = y_i]\) 및 \(\mu = \sum_i p_i \mu_i\)입니다. 따라서 전체 분산은 다음으로 제공됩니다:

\(\quad\displaystyle \operatorname{Var}[X] = \sum_i p_i \sigma^2_i + \left( \sum_i p_i \mu_i^2 - \mu^2 \right).\)

비슷한 공식은 분산의 해석(analysis of variance)에서 적용되며, 여기서 대응하는 공식은 다음입니다:

\(\quad \mathit{MS}_\text{total} = \mathit{MS}_\text{between} + \mathit{MS}_\text{within};\)

여기서 \(\mathit{MS}\)는 제곱의 평균을 참조합니다. 선형 회귀(linear regression) 해석에서 대응하는 공식은 다음입니다:

\(\quad \mathit{MS}_\text{total} = \mathit{MS}_\text{regression} + \mathit{MS}_\text{residual}.\)

이것은 분산의 덧셈 가능성에서 역시 유도될 수 있는데, 왜냐하면 전체 (관측된) 점수는 예측된 점수와 오차 점수의 합이기 때문이며, 여기서 후자의 둘은 비-상관입니다.

비슷한 분해는 제곱된 편차의 합 (제곱들의 합, \(\mathit{SS}\))에 대해 가능합니다:

\(\quad \mathit{SS}_\text{total} = \mathit{SS}_\text{between} + \mathit{SS}_\text{within},\)

\(\quad \mathit{SS}_\text{total} = \mathit{SS}_\text{regression} + \mathit{SS}_\text{residual}.\)

Calculation from the CDF

비-음의 확률 변수에 대한 모집단 분산은 다음을 사용하여 누적 분포 함수(cumulative distribution function) F의 관점에서 표현될 수 있습니다:

\(\quad\displaystyle 
2\int_0^\infty u( 1-F(u))\,du - \Big(\int_0^\infty (1-F(u))\,du\Big)^2.
\)

이 표현은, 누적 밀도 함수가 편리하게 표현될 수 있지만, 밀도(density)는 그렇지 않은 상황에서 분산을 계산하기 위해 사용될 수 있습니다.

Characteristic property

확률 변수의 두 번째 모멘트(moment)는 확률 변수의 첫 번째 모멘트 (즉, 평균), 즉, \(\mathrm{argmin}_m\,\mathrm{E}\left(\left(X - m\right)^2\right) = \mathrm{E}(X)\) 주위에서 취할 때 최솟값에 도달합니다. 반대로, 만약 연속 함수 \(\varphi\)가 모든 확률 변수 X에 대해 \(\mathrm{argmin}_m\,\mathrm{E}(\varphi(X - m)) = \mathrm{E}(X)\)를 만족시키면, 반드시 형식 \(\varphi(x) = a x^2 + b\)이어야 하며, 여기서 a > 0입니다. 이것은 다차원적인 경우에서 역시 유지됩니다.

Units of measurement

기대 절대 편차와 달리, 변수의 분산은 변수 그 자체의 단위의 제곱인 단위를 가집니다. 예를 들어, 미터에서 측정된 변수는 제곱된 미터에서 측정된 분산을 가질 것입니다. 이 이유에 대해, 그들의 표준 편차(standard deviation) 또는 제곱근 평균 제곱 편차(root mean square deviation)를 통해 데이터 집합을 기술하는 것이 분산을 사용하는 것보다 종종 선호됩니다. 주사위 예제에서 표준 편차는 \(\sqrt{2.9} \approx 1.7\)이며, 기대 절대 편차 1.5보다 약간 더 큽니다.

표준 편차와 기대 절대 편차 둘 다는 분포의 "흩어짐"의 지표로 사용될 수 있습니다. 표준 편차는 기대 절대 편차보다 대수적 조작에 더 적합하고, 분산 및 그의 일반화 공분산(covariance)과 함께 이론적 통계에서 자주 사용됩니다; 어쨌든 기대 절대 편차는 보다 건장(robust)하게 되는 경향이 있는데 왜냐하면 그것은 측정 변칙(measurement anomalies) 또는 지나치게 두꺼운-꼬리 분포(heavy-tailed distribution)로 인해 발생하는 이상값(outlier)에 덜 민감하기 때문입니다.

Approximating the variance of a function

델타 방법(delta method)은 하나 이상의 확률 변수의 함수의 분산을 근사화하기 위해 이-차 테일러 전개(Taylor expansion)를 사용합니다: 확률 변수의 함수의 모멘트에 대해 테일러 전개를 참조하십시오. 예를 들어, 한 변수의 함수의 근사 분산은, 만약 f가 두 번 미분-가능이고 X의 평균과 분산이 유한인 것으로 제공되면, 다음으로 제공됩니다:

\(\quad \operatorname{Var}\left[f(X)\right]\approx \left(f'(\operatorname{E}\left[X\right])\right)^2\operatorname{Var}\left[X\right]\).

Population variance and sample variance

어제 하루 종일 비의 측정과 같은 실제-세상 관측은 전형적으로 만들어질 수 있는 모든 가능한 관측의 완전한 집합이 절대 될 수 없습니다. 그렇기 때문에, 유한 집합에서 계산된 분산은 가능한 관측의 전체 모집단으로부터 계산될 수 있는 분산과 일반적으로 일치할 수 없습니다. 이것은 추정량(estimator) 방정식을 사용함으로써 관측의 모든 알려진 집합으로부터 계산될 수 있는 평균과 분산을 추정한다(estimates)는 것을 의미합니다. 추정량은 잠재적인 관측의 전체 모집단(population)으로부터 관측된 편향없이 도출된 n 개의 관측(observations)표본(sample)의 함수입니다. 이 예제에서 그 표본은 관심있는 지역 안에서 사용 가능한 비 게이지로부터 어제의 강우량의 실제 측정의 집합일 수 있습니다.

모집단 평균 및 모집단 분산에 대해 가장 간단한 추정량은 단순히 표본의 평균 및 분산, 표본 평균(sample mean) 및 (비-보정된) 표본 분산((uncorrected) sample variance)입니다 – 이들은 일치 추정량(consistent estimator)이지만 (그들은 표본의 숫자가 증가함에 따라 올바른 값으로 수렴합니다), 개선이 될 수 있습니다. 표본의 분산을 취함으로써 모집단 분산을 추정하는 것은 일반적으로 최적에 가깝지만, 두 가지 방법에서 개선될 수 있습니다. 가장 간단하게, 표본 분산은, n으로 나눔으로써, (표본) 평균에 대한 제곱된 편차(squared deviations)의 평균으로 계산됩니다. 어쨌든, n 이외의 값을 사용하면 다양한 방식으로 추정량을 개선시킵니다. 분모에 대해 네 가지 공통 값은 n, n − 1, n + 1, 및 n − 1.5입니다: n은 가장 단순한 것 (표본의 모집단 분산)이고, n − 1은 편향을 제거하고, n + 1은 정규 분포에 대해 평균 제곱된 오차(mean squared error)를 최소화하고, n − 1.5은 정규 분포에 대해 표준 편차의 불-편향 추정(unbiased estimation of standard deviation)에서 편향을 대부분 제거합니다.

먼저, 만약 모든 알려진 것으로부터의 평균이 미지수이면 (표본 평균으로 계산되면), 표본 분산은 편향 추정량(biased estimator)입니다: 그것은 (n − 1) / n의 인수에 의해 분산을 과소평가합니다; (n 대신에 n − 1로 나눔으로써) 이 인수에 의해 보정하는 것은 베셀의 보정(Bessel's correction)이라고 불립니다. 결과 추정량은 불-편향이고, (보정된) 표본 분산((corrected) sample variance) 또는 불-편향 표본 분산(unbiased sample variance)이라고 불립니다. 예를 들어, n = 1일 때, 표본 평균 (그 자체)에 대한 하나의 관측의 분산은, 모집단 분산에 관계없이, 분명히 영입니다. 만약 평균이 분산을 추정하기 위해 사용된 같은 표본으로부터의 것보다 일부 다른 방식으로 결정되면, 이 편향이 발생하지 않고, 분산은 (독립적으로 알려진) 평균에 대한 표본의 것으로 안전하게 추정될 수 있습니다.

다음으로, 표본 분산은 일반적으로 표본 분산과 모집단 분산 사이의 평균 제곱된 오차(mean squared error)를 최소화하지 않습니다. 편향에 대해 보정하는 것은 종종 이것을 더 악화시킵니다: 비록 최적의 스케일 인수는 모집단의 초과 뾰족(excess kurtosis)에 의존하고 (평균 제곱된 오차: 분산(mean squared error: variance)을 참조하십시오), 편향을 유발할지라도, 보정된 표본 분산보다 더 좋게 수행하는 스케일 인수를 항상 선택할 수 있습니다. 이것은 (n − 1보다 더 큰 숫자로 나눔으로써) 항상 불-편향 추정량을 축소하는 것으로 구성하고, 수축 추정량(shrinkage estimator)의 간단한 예제입니다: 불-편향 추정량을 영으로 향하도록 "축소합니다". 정규 분포에 대해, (n − 1 또는 n 대신에) n + 1로 나눔으로써 평균 제곱된 오차를 최소화합니다. 결과 추정량은 편향이고, 어쨌든, 편향된 표본 변화(biased sample variation)로 알려져 있습니다.

Population variance

일반적으로, 값 \(x_i\)를 갖는 크기 N유한 모집단(population)모집단 분산(population variance)은 다음으로 제공됩니다:

\(\quad\displaystyle  \begin{align}
 \sigma^2 &= \frac 1N \sum_{i=1}^N  \left(x_i - \mu \right)^2 = \frac 1N \sum_{i=1}^N  \left(x_i^2 - 2\mu x_i + \mu^2 \right) \\[5pt]
 &= \left(\frac 1N \sum_{i=1}^N x_i^2\right) - 2\mu \left(\frac 1N \sum_{i=1}^N x_i\right) + \mu^2 \\[5pt]
 &= \left(\frac 1N \sum_{i=1}^N x_i^2\right) - \mu^2
\end{align}\)

여기서 모집단 평균은 다음입니다:

\(\quad\displaystyle  \mu = \frac 1N \sum_{i=1}^N x_i. \)

모집단 분산은 다음을 사용하여 역시 계산될 수 있습니다:

\(\quad\displaystyle  \sigma^2 = \frac {1} {N^2}\sum_{i<j}\left( x_i-x_j \right)^2 = \frac{1}{2N^2} \sum_{i, j=1}^N\left( x_i-x_j \right)^2.\)

이것은 참인데 왜냐하면

\(\quad\displaystyle  
\begin{align}
\frac{1}{2N^2} \sum_{i, j=1}^N\left( x_i-x_j \right)^2 & = 
 \frac{1}{2N^2} \sum_{i, j=1}^N\left( x_i^2 - 2x_ix_j  + x_j^2 \right) \\[5pt]
 &= \frac{1}{2N} \sum_{j=1}^N\left(\frac 1N \sum_{i=1}^N x_i^2\right) - \left(\frac 1N \sum_{i=1}^N x_i\right)\left(\frac 1N \sum_{j=1}^N x_j\right) \\[5pt]
&\quad + \frac{1}{2N} \sum_{i=1}^N\left(\frac 1N \sum_{j=1}^N x_j^2\right) \\[5pt]
 &= \frac{1}{2} \left( \sigma^2 + \mu^2 \right) - \mu^2 + \frac{1}{2} \left( \sigma^2 + \mu^2 \right) \\[5pt]
 &= \sigma^2
\end{align}
\)

모집단 분산은 생성하는 확률 분포의 분산과 일치합니다. 이런 의미에서, 모집단의 개념은 무한 모집단을 갖는 연속 확률 변수로 확장될 수 있습니다.

Sample variance

많은 실제적 상황에서, 모집단의 참 분산은 이전(a priori)으로 알려져 있지 않고 어떻게든지 반드시 계산되어야 합니다. 엄청나게 큰 모집단을 다룰 때, 모집단에서 모든 각 대상을 세는 것이 불가능하므로, 계산은 모집단의 표본(sample)에 대해 수행되어야 합니다. 표본 분산은 해당 분포의 표본에서 연속 분포의 분산을 추정하기 위해 역시 적용될 수 있습니다.

우리는 모집단에서 n 값 \(Y_1,...,Y_n\)의 대체를 갖는 표본(sample with replacement)을 취하고 (여기서 n < N), 이 표본을 기초로 분산을 추정합니다. 표본 데이터의 분산을 직접 취하면 다음의 제곱된 편차(squared deviations)의 평균을 제공합니다:

\(\quad\displaystyle \sigma_Y^2 = \frac 1n \sum_{i=1}^n \left(Y_i - \overline{Y} \right)^2 =\left(\frac 1n \sum_{i=1}^n Y_i^2\right) - \overline{Y}^2 = \frac {1} {n^2} \sum_{i,j\,:\,i<j}\left( Y_i-Y_j \right)^2.\)

여기서, \(\overline{Y}\)는 다음의 표본 평균(sample mean)을 나타냅니다:

\(\quad\displaystyle \overline{Y}=\frac 1n \sum_{i=1}^n Y_i .\)

\(Y_i\)가  무작위로 선택되므로, \(\overline{Y}\)와 \(\sigma_Y^2\) 둘 다는 확률 변수입니다. 그들의 기댓값은 모집단으로부터 크기 n의 모든 가능한 표본들 \(\{Y_i\}\)의 전체에 걸쳐 평균함으로써 평가될 수 있습니다. \(\sigma_Y^2\)에 대해 이것은 다음을 제공합니다:

\(\quad\displaystyle 
\begin{align}
\operatorname{E}[\sigma_Y^2]
& = \operatorname{E}\left[ \frac 1n \sum_{i=1}^n \left(Y_i - \frac 1n \sum_{j=1}^n Y_j \right)^2 \right] \\[5pt]
& = \frac 1n \sum_{i=1}^n \operatorname{E}\left[ Y_i^2 - \frac 2n Y_i \sum_{j=1}^n Y_j + \frac{1}{n^2} \sum_{j=1}^n Y_j \sum_{k=1}^n Y_k \right] \\[5pt]
& = \frac 1n \sum_{i=1}^n \left[ \frac{n-2}{n} \operatorname{E}[Y_i^2] - \frac 2n \sum_{j \neq i} \operatorname{E}[Y_i Y_j] + \frac{1}{n^2} \sum_{j=1}^n \sum_{k \neq j}^n \operatorname{E}[Y_j Y_k] +\frac{1}{n^2} \sum_{j=1}^n \operatorname{E}[Y_j^2] \right] \\[5pt]
& = \frac 1n \sum_{i=1}^n \left[ \frac{n-2}{n} (\sigma^2+\mu^2) - \frac 2n (n-1) \mu^2 + \frac{1}{n^2} n (n-1) \mu^2 + \frac 1n (\sigma^2+\mu^2) \right] \\[5pt]
& = \frac{n-1}{n} \sigma^2.
\end{align}
\)

따라서 \(\sigma_Y^2\)은 \(\frac{n-1}{n}\)의 인수에 의해 편향된 모집단 분산입니다. 이 이유에 대해, \(\sigma_Y^2\)은 편향된 표본 분산(biased sample variance)으로 참조됩니다. 이 편향에 대해 보정하는 것은 불-편향된 표본 분산(unbiased sample variance)을 산출합니다:

\(\quad\displaystyle s^2 = \frac{n}{n-1} \sigma_Y^2 = \frac{n}{n-1} \left( \frac{1}{n} \sum_{i=1}^n \left(Y_i - \overline{Y} \right)^2 \right) = \frac{1}{n-1} \sum_{i=1}^n \left(Y_i - \overline{Y} \right)^2 \)

두 추정량 중 하나는, 버전이 문맥에 의해 결정될 수 있을 때, 표본 분산으로 단순히 참조될 수 있습니다. 같은 증명은 연속 확률 분포로부터 추출된 표본에 대해 역시 적용가능합니다.

n − 1의 사용은 베셀의 보정(Bessel's correction)이라고 불리고, 표본 공분산(sample covariance)표본 표준 편차(sample standard deviation) (분산의 제곱근)에서 역시 사용됩니다. 제곱근은 오목 함수(concave function)이고 따라서 분포에 따라 음의 편향 (옌센의 부등식(Jensen's inequality))을 유발하고, 따라서 (베셀의 보정을 사용하여) 보정된 표본 표준 편차는 편향입니다. 표준 편차의 불-편향 추정(unbiased estimation of standard deviation)은, 비록 정규 분포에 대해 항 n − 1.5을 사용하여 거의 불-편향 추정량을 산출할지라도, 기술적으로 관련된 문제입니다.

불-편향된 표본 분산은 함수 \(f(y_1,y_2)=(y_1 - y_2)^2/2\)에 대해 U-통계(U-statistic)로써, 이는 그것이 모집단의 2-원소 부분집합에 걸쳐 2-표본 통계량을 평균함으로써 구해짐을 의미합니다.

Distribution of the sample variance

확률 변수(random variable)의 함수이기 때문에, 표본 분산은 그 자체로 확률 변수이고, 그것의 분포를 연구하는 것은 자연스럽습니다. \(Y_i\)가 정규 분포(normal distribution)로부터 독립적 관측인 경우에서, 카그랜의 정리(Cochran's theorem)는 \(s^2\)이 스케일된 카이-제곱된 분포(chi-squared distribution)를 따름을 보여줍니다:

\(\quad\displaystyle 
(n-1)\frac{s^2}{\sigma^2}\sim\chi^2_{n-1}.
\)

직접 결과에서 처럼, 그것은 다음임을 따릅니다:

\(\quad\displaystyle 
\operatorname{E}(s^2)=\operatorname{E}\left(\frac{\sigma^2}{n-1} \chi^2_{n-1}\right)=\sigma^2 ,
\)

\(\quad\displaystyle 
 \operatorname{Var}[s^2] =\operatorname{Var}\left(\frac{\sigma^2}{n-1} \chi^2_{n-1}\right)=\frac{\sigma^4}{(n-1)^2}\operatorname{Var}\left( \chi^2_{n-1}\right)=\frac{2\sigma^4 }{n-1}.
  \)

만약 \(Y_i\)가 독립이고 동일하게 분포되지만, 반드시 정규로 분포되지는 않으면,

\(\quad\displaystyle 
    \operatorname{E}[s^2] = \sigma^2, \quad
    \operatorname{Var}[s^2] = \frac{\sigma^4}{n} \left ((\kappa-1)+\frac{2}{n-1} \right) = \frac{1}{n} \left(\mu_4 - \frac{n-3}{n-1}\sigma^4\right),
  \)

여기서 κ는 분포의 뾰족(kurtosis)이고 \(\mu_4\)는 네 번째 중심 모멘트(central moment)입니다.

만약 큰 숫자의 법칙(law of large numbers)의 조건이 제곱된 관측에 대해 유지되면, \(s^2\)는 \(\sigma^2\)의 일치 추정량(consistent estimator)입니다. 사실 추정량의 분산은 영으로 점근적으로 가는 경향이 있음을 알 수 있습니다. 점근적으로 동등한 공식은 케니와 키핑(Kenney and Keeping) (1951:164), 로즈와 스미스(Rose and Smith) (2002:264), 및 웨이스타인(Weisstein) (n.d.)에서 제공되었습니다.

Samuelson's inequality

사무엘슨의 부등식(Samuelson's inequality)은, 표본 평균 및 (편향된) 분산이 계산되어 왔던 것으로 주어지면, 표본에서 개별적인 관측이 취할 수 있는 값에 극한을 정하는 결과입니다. 값은 반드시 극한 \(\bar y \pm \sigma_Y (n-1)^{1/2}\) 안에 있어야 합니다.

Relations with the harmonic and arithmetic means

그것은 실수의 표본 \(\{y_i\}\)에 대해, 다음임을 보여왔습니다:

\(\quad  \sigma_y^2 \le 2y_{\max} (A - H), \)

여기서 \(y_{\text{max}}\)는 표본의 최댓값이고, A는 산술 평균, H는 표본의 조화 평균(harmonic mean)이고 \(\sigma_y^2\)은 표본의 (편향된) 분산입니다.    

이 경계는 개선되어 왔고, 분산이 다음에 의해 경계지는 것임을 알려져 있습니다:

\(\quad\displaystyle  \sigma_y^2 \le \frac{y_{\max} (A - H)(y_\max - A)}{y_\max - H}, \)

\(\quad\displaystyle  \sigma_y^2 \ge \frac{y_{\min} (A - H)(A - y_\min)}{H - y_\min}, \)

여기서 \(y_{\text{min}}\)는 표본의 최솟값입니다.

Tests of equality of variances

두 개 이상의 분산의 상등에 대해 테스팅은 어렵습니다. F 테스트(F test)카이 제곱 테스트(chi square test)는 비-정규성에 의해 둘 다 부정적인 영향을 받고 이 목적에 대해 권장되지 않습니다.

몇 가지 비-매개변수의 테스트가 제안되어 왔습니다: 이들은 바튼–데이비드–인싸리–파인트–시걸–투키(Barton–David–Ansari–Freund–Siegel–Tukey) 테스트, 키폰 테스트(Capon test), 무드 테스트(Mood test), 클로츠 테스트(Klotz test)슈케미 테스트(Sukhatme test)를 포함합니다. 슈케미 테스트는 두 분산에 적용되고 두 중앙값(median)을 모두 알고 있어야 하고 영과 같아야 합니다. 무드, 클로츠, 키폰 및 바튼–데이비드–인싸리–파인트–시걸–투키 테스트는 두 분산에 역시 적용됩니다. 그것들은 중앙값이 미지수가 되지만 두 중앙값이 같아야 하는 요구를 허용합니다.

리히만 테스트(Lehmann test)는 두 분산의 매개변수의 테스트입니다. 이 테스트는 몇 가지 변형이 알려져 있습니다. 분산의 상등의 다른 테스트는 박스 테스트(Box test), 박스–앤더슨 테스트(Box–Anderson test)모저스 테스트(Moses test)를 포함합니다.

부트스트랩(bootstrap)잭나이프(jackknife)를 포함하는, 재-표본화 방법은 분산의 상등을 테스트하기 위해 사용될 수 있습니다.

History

용어 분산은 1918년 논문 The Correlation Between Relatives on the Supposition of Mendelian Inheritance에서 로널드 피셔(Ronald Fisher)에 의해 처음 도입되었습니다:

유용한 통계학의 엄청난 몸체는 그의 평균으로부터 인간 측정(human measurement)의 편차는 오차의 정규 법칙(Normal Law of Errors)과 매우 근접하게 따르고, 그러므로, 분산성은 평균 제곱 오차(mean square error)의 제곱근(square root)에 해당하는 표준 편차(standard deviation)로 균일하게 측정될 수 있음을 우리에게 보여줍니다. 표준 편차 \(\sigma_1\) 및 \(\sigma_2\)를 갖는 다른 방법의 균등한 모집단 분포에서 생성할 수 있는 분산성의 두 가지 독립 원인이 있을 때, 분포는, 원인 둘 다가 함께 작용할 때, 표준 편차 \(\sqrt{\sigma_1^2 + \sigma_2^2}\)임을 발견합니다. 그러므로 분산성의 측정으로 표준 편차의 제곱을 다루는 분산성의 원인을 해석하는 것이 바람직합니다. 우리는 이 양을 분산으로 이름 지을 것입니다...

Moment of inertia

확률 분포의 분산은, 질량 중심에 대한 회전의 관점에서, 직선을 따라 해당하는 질량 분포의 고전 역학(classical mechanics)에서 관성의 모멘트(moment of inertia)와 유사합니다. 이 유사성때문에 분산과 같은 그러한 것이 확률 분포(probability distribution)모멘트(moment)라고 불립니다. 공분산 행렬은 다변량 분포에 대해 관성의 모멘트 텐서(moment of inertia tensor)와 관련됩니다. \(\Sigma\)의 공분산 행렬을 가진 ''n'' 점의 구름의 관성 모멘트는 다음으로 제공됩니다:

\(\quad I=n (\mathbf{1}_{3\times 3} \operatorname{tr}(\Sigma) - \Sigma).\)

물리학 및 통계학에서 관성 모멘트 사이의 이러한 차이는 직선을 따라 모여진 점들에 대해 분명합니다. 많은 점이 x 축에 가깝고 그것을 따라 분포되어 있다고 가정합니다. 공분산 행렬은 다음처럼 보일 것입니다:

\(\quad \Sigma=\begin{bmatrix}10 & 0 & 0\\0 & 0.1 & 0 \\ 0 & 0 & 0.1\end{bmatrix}.\)

즉, x 방향에서 가장 큰 분산이 있습니다. 물리학자는 이것을 x 축에 대한 낮은 모멘트를 가지는 것으로 고려하므로 관성 모멘트 텐서는 다음입니다.

\(\quad I=n\begin{bmatrix}0.2 & 0 & 0\\0 & 10.1 & 0 \\ 0 & 0 & 10.1\end{bmatrix}.\)

Semivariance

반분산(semivariance)은 분산과 같은 방식으로 계산되지만 오직 평균 아래로 떨어지는 그들의 관측이 계산에 포함됩니다:

\(\quad\displaystyle \text{Semivariance} = {1\over{n}}\sum_{i:x_{i} < \mu}(x_{i}-\mu)^{2}\)

그것은 때때로 투자(investments) 문맥에서 하락 위험(downside risk)의 측정으로 묘사됩니다. 치우친 분포에 대해, 반분산은 분산이 제공하지 못하는 추가적인 정보를 제공할 수 있습니다:

반분산과 관련된 부등식에 대해, Chebyshev's inequality § Semivariances을 참조하십시오.

Generalizations

For complex variables

만약 \(x\)가, \(\mathbb{C}\)에서 값을 갖는, 스칼라 복소(complex)-값 확률 변수이면, 그의 분산은 \(\operatorname{E}\left[(x - \mu)(x - \mu)^*\right]\)이며, 여기서 \(x^*\)는 \(x\)의 복소수 켤레(complex conjugate)입니다. 이 분산은 실수 스칼라입니다.

For vector-valued random variables

As a matrix

만약 \(X\)가, \(\mathbb{R}^n\)에서 값을 갖고 열 벡터로 생각되는, 벡터(vector)-값 확률 변수이면, 분산의 자연스러운 일반화는 \(\operatorname{E}\left[(X - \mu)(X - \mu)^{\operatorname{T}}\right]\)이며, 여기서 \(\mu = \operatorname{E}(X)\)이고 \(X^{\operatorname{T}}\)는 \(X\)의 전치이므로 행 벡터입니다. 결과는 양의 반-확정 정사각 행렬(positive semi-definite square matrix)이며, 공통적으로 분산-공분산 행렬(variance-covariance matrix) (또는 단순히 공분산 행렬)로 참조됩니다.

만약 \(X\)가, \(\mathbb{C}^n\)에서 값을 가진, 벡터- 및 복소-값 확률 변수이면, 공분산 행렬(covariance matrix)은 \(\operatorname{E}\left[(X - \mu)(X - \mu)^\dagger\right]\)이며, 여기서 \(X^\dagger\)는 \(X\)의 켤레 전치(conjugate transpose)입니다. 이 행렬은 역시 양의 반-확정이고 정사각입니다.

As a scalar

행렬이라기 보다는 오히려 스칼라 값을 초래하는, 벡터-값 확률 변수 \(X\)에 대해 분산의 또 다른 일반화는 일반화된 분산(generalized variance) \(\det(C)\), 공분산 행렬의 행렬식(determinant)입니다. 일반화된 분산은 그들의 평균 주변의 점들의 다차원 흩뜨림과 관련이 되는 것으로 보일 수 있습니다.

다른 일반화는 확률 변수와 그의 평균 사이의 유클리드 거리(Euclidean distance)를 고려함으로써 얻습니다. 이것은 \(\operatorname{E}\left[(X - \mu)^{\operatorname{T}}(X - \mu)\right] = \operatorname{tr}(C)\)의 결과를 낳고, 공분산 행렬의 대각합(trace)입니다.

See also