버림-대체된 평균(winsorized mean)은 평균(mean)과 중앙값(median)과 매우 유사하고, 잘린 평균(truncated mean)과 훨씬 더 유사한, 버림-대체하는(winsorized) 통계적(statistical) 중심 경향의 측정(measure of central tendency)입니다. 그것은 버림-대체(winsorizing) 후 평균의 계산을 포함합니다 -- 확률 분포(probability distribution)의 주어진 부분 또는 높은 끝과 낮은 끝에서 표본(sample)을 가장 극한의 남아있는 값으로 대체하며, 전형적으로 양쪽 극단의 같은 총양에 대해 수행합니다; 종종 끝 부분의 10에서 25 퍼센트가 교체됩니다. 버림-대체된 평균은 잘린 평균과 제한된 분위-숫자의 가중된 평균(weighted average)으로 동등하게 표현될 수 있으며, 이것은 부분을 해당하는 분위-숫자로 대체하는 것에 해당합니다.
Advantages
버림-대체된 평균은 유용한 추정기인데 왜냐하면 그것이 평균보다 이상값(outlier)에 덜 민감하지만 거의 모든 통계적 모델에 대해 중앙 경향값 또는 평균의 합리적인 추정을 여전히 제공하기 때문입니다. 이와 관련하여, 그것은 강건한 추정기(robust estimator)로 참조됩니다.
Drawbacks
버림-대체된 평균은 중앙값(median)보다 분포 또는 표본에서 더 많은 정보를 사용합니다. 어쨌든, 놓여있는 분포가 대칭(symmetric)이 아니면, 표본의 버림-대체된 평균이 평균 또는 중앙값에 대해 불-편향된 추정기(unbiased estimator)를 생성할 가능성이 낮습니다.
Example
10 숫자의 표본에 대해 (가장-작은 \(x_1\)에서, 가장-큰 \(x_{10}\)까지) 10% 버림-대체된 평균은 다음입니다:
\(\quad\displaystyle \frac{\overbrace{x_2 + x_2} + x_3 + x_4 + x_5 + x_6 + x_7 + x_8 + \overbrace{x_9 + x_9}}{10}. \, \)
핵심은 \(x_2\)와 \(x_9\)의 반복에 있습니다: 여분의 것은 버려진 것과 대체된 것인 원래 값 \(x_1\)과 \(x_{10}\)을 대체합니다.
이것은 5번째 백분위수 \((x_2)\)의 0.1배, 10% 정돈된 평균(trimmed mean)의 0.8배, 및 95번째 백분위수 \((x_9)\)의 0.1배의 가중된 평균과 동등합니다.
Notes
- Dodge, Y (2003) The Oxford Dictionary of Statistical Terms, OUP. ISBN 0-19-920613-9 (entry for "winsorized estimation")
References
- Wilcox, R.R.; Keselman, H.J. (2003). "Modern robust data analysis methods: Measures of central tendency". Psychological Methods. 8 (3): 254–274. doi:10.1037/1082-989X.8.3.254. PMID 14596490.