표본 평균(sample mean, 또는 "경험적 평균(empirical mean)") 및 표본 공분산(sample covariance)은 하나 이상의 확률 변수(random variables)의 표본(sample)으로부터 계산된 통계량(statistic)입니다.
표본 평균은 숫자의 더 큰 모집단(population)에서 취해진 숫자의 표본(sample)의 평균(average) 값이며, 여기서 "모집단"은 사람의 숫자가 아니라 수집된 여부에 관계없이 관련된 데이터의 전체를 나타냅니다. 포춘 500(Fortune 500)으로부터 40 회사의 매출의 표본은 모집단, 모든 500 회사의 매출을 보는 대신에 편의상 사용될 수 있습니다. 표본 평균은 모집단 평균, 전체 모집단에서 평균값에 대해 추정(estimator)으로 사용되며, 여기서 추정은 만약 표본이 크고 대표적이면 모집단 평균에 더 가깝습니다. 표본 평균의 신뢰도는 표준 오차(standard error)를 사용하여 추정되며, 이것은 차례로 표본의 분산(variance)을 사용하여 계산됩니다. 만약 표본이 무작위이면, 표준 오차는 표본 크기에 따라 떨어지고 표본 평균의 분포가 표본 크기가 증가함에 따라 정규 분포에 접근합니다.
용어 "표본 평균"은 역시 통계학자가 표본에서 여러 변수의 값, 예를 들어, 포춘 500 회사의 표본의 매출, 수익 및 직원을 바라볼 때 평균의 벡터(vector)를 참조하기 위해 사용될 수 있습니다. 이 경우에서, 단지 각 변수에 대한 표본 분산뿐 아니라 표본 분산-공분산 행렬 (또는 단순히 공분산 행렬(covariance matrix))이 있으며, 각 변수의 쌍 사이의 관계도 보여줍니다. 이것은 3 변수가 고려될 때 3x3 행렬이 됩니다. 표본 공분산은 표본 평균의 신뢰도를 추정으로 판단하는 것에 유용하고 역시 모집단 공분산 행렬의 추정으로 유용합니다.
계산의 용이성과 다른 바람직한 특성으로 인해, 표본 평균과 표본 공분산은 표본에서 위치(location)와 산포도(dispersion)를 나타내기 위해, 및 모집단에 대해 값을 추정하기 위해 통계학에서 널리 사용됩니다.
Definition of the sample mean
표본 평균은 표본에서 변수 값의 평균으로, 이것은 그들 값의 합을 값의 개수로 나눈 것입니다. 수학적 표기법을 사용하여, 만약 변수 X에 대한 N 관측의 표본이 모집단에서 취해지면 표본 평균은 다음입니다:
이 정의 아래에서, 만약 표본 (1, 4, 1)이 모집합 (1,1,3,4,0,2,1,0)에서 취해지면, 표본 평균은
만약 통계학자가 하나가 아닌 K 변수, 그들 K 변수 각각에 대해 값을 가지는 각 관측에 관심이 있으면, 전체 표본 평균은 개별 변수에 대해 K 표본 평균으로 구성됩니다.
표본 평균 벡터
따라서, 표본 평균 벡터는 각 변수에 대해 관측의 평균을 포함하고, 다음으로 쓰입니다:
Definition of sample covariance
표본 공분산 행렬은 다음 엔트리를 갖는 K-×-K 행렬(matrix)
여기서
관측 벡터의 관점에서, 표본 공분산은 다음입니다:
대안적으로, 다음이 되도록 관측 벡터를 행렬의 열로 배열하는 것입니다:
이것은 K 행과 N 열의 행렬입니다. 이때, 표본 공순한 행렬은 다음으로 계산될 수 있습니다:
여기서
확률 벡터(random vector)에 대해 공분산 행렬과 마찬가지로, 표본 공분산 행렬은 양의 반-한정(positive semi-definite)입니다. 그것을 입증하기 위해, 임의의 행렬
Unbiasedness
표본 평균과 표본 공분산 행렬은 평균(mean)과 확률 벡터(random vector), 그것의 j번째 원소 (j = 1, ..., K)가 확률 변수의 하나인 행 벡터의 공분산 행렬(covariance matrix)의 불-편향된 추정(unbiased estimates)입니다. 표본 공분산 행렬은 베셀의 보정(Bessel's correction)의 변형으로 인해 분모에서
분모에서
가우스 분포(Gaussian distribution) 경우에 대해 최대 가능도(maximum likelihood) 공분산의 추정(estimate of the covariance)이
마찬가지로 분모에서 N을 가집니다. 1/N에서 1/(N−1)로의 비율은 큰 N에 대해 1에 접근하므로, 최대 가능도 추정은 표본이 클 때 불-편향된 추정과 근사적으로 같습니다.
Variance of the sampling distribution of the sample mean
각 확률 변수에 대해, 표본 평균은 모집단 평균의 좋은 추정기(estimator)이며, 여기서 "좋은" 추정기는 효율적이고 불편향된 것으로 정의됩니다. 물론 추정기는 모집단(population) 평균의 참 값이 아닐 가능성이 있을 것인데 왜냐하면 표본 모집단에서 추출된 다른 표본이 다른 표본 평균을 제공할 것이고 따라서 참 평균의 다른 추정할 것이기 때문입니다. 따라서 표본 평균은 상수가 아닌 확률 변수(random variable)이고, 결과적으로 그 자체 분포를 가집니다. j번째 확률 변수에 대한 N 관측의 확률 표본에 대해, 표본 평균의 분포 자체는 모집단 평균
Weighted samples
가중된 표본에서, 각 벡터
(만약 그것들이 정규화되지 않으면, 가중을 합으로 나눕니다). 그런-다음 가중된 평균(weighted mean) 벡터
그리고 가중된 공분산 행렬
만약 모든 가중이 같은 것,
Criticism
표본 평균과 표본 공분산은 강건한 통계(robust statistics)가 아니며, 그것들이 이상값(outliers)에 민감함을 의미합니다. 강건성은 종종 원했던 특성이며, 특별히 실-세계 응용에서, 강건한 대안이 특히 위치에 대해 표본 중앙값(sample median) 및 산포도에 대해 사분위수-사이 범위(interquartile range) (IQR)와 같은 분위-숫자(quantile)-기반된 통계에서 바람직한 것으로 입증될 수 있습니다. 다른 대안은 정돈된 평균(trimmed mean)과 버림-대체된 평균(Winsorized mean)에서 처럼 정돈함(trimming) 및 버림-대체함(Winsorising)을 포함합니다.
References
- Richard Arnold Johnson; Dean W. Wichern (2007). Applied Multivariate Statistical Analysis. Pearson Prentice Hall. ISBN 978-0-13-187715-3. Retrieved 10 August 2012.
- Mark Galassi, Jim Davies, James Theiler, Brian Gough, Gerard Jungman, Michael Booth, and Fabrice Rossi. GNU Scientific Library - Reference manual, Version 1.15, 2011. Sec. 21.7 Weighted Samples
- The World Question Center 2006: The Sample Mean, Bart Kosko