데이터 값의 집합의 최빈값(mode)은 가장 자주 나타나는 값입니다. 그것은 그의 확률 질량 함수(probability mass function)가 그의 최댓값을 취하는 값 x입니다. 다른 말로, 그것은 표본화될 가능성이 가장 큰 값입니다.
통계적 평균(mean)과 중앙값(median)과 마찬가지로, 최빈값은 확률 변수 또는 모집단(population)에 대한 중요한 정보를, (보통) 단일 숫자로 표현하는 방법입니다. 최빈값의 숫자적 값은 정규 분포(normal distribution)에서 평균 및 중앙값의 수치와 같고, 그것은 고도로 기울어진 분포(skewed distribution)에서 크게 다를 수 있습니다.
확률 질량 함수는 여러 점 \(x_1,x_2\) 등에서 같은 최댓값을 취할 수 있기 때문에, 최빈값은 주어진 이산 분포(discrete distribution)에 대해 반드시 고유하지는 않습니다. 가장 극단적인 경우는 모든 값이 똑같이 자주 발생하는 균등 분포(uniform distributions)에서 발생합니다.
연속 분포(continuous distribution)의 확률 밀도 함수가 다중 극댓값(local maxima)을 가질 때 그것은 모든 극댓값을 분포의 최빈값으로 참조하는 것이 공통입니다. 그러한 연속 분포는 (단일-봉우리(unimodal)과 반대인) 여러-봉우리(multimodal)이라고 불립니다. 연속 확률 분포(continuous probability distribution)의 최빈값은 그의 확률 밀도 함수(probability density function)가 극댓값을 가지는 임의의 값 x로 종종 간주되므로, 그래서 임의의 봉우리는 최빈값입니다.
정규 분포(normal distribution)와 같은, 대칭(symmetric) 단일-봉우리 분포에서, (만약 정의되었다면) 평균, 중앙값, 및 최빈값은 모두 일치합니다. 표본에 대해, 만약 그것이 그들이 대칭 분포로부터 그려진 것으로 알려져 있으면, 표본 평균은 모집단 최빈값의 추정으로 사용될 수 있습니다.
Mode of a sample
표본의 최빈값은 모음에서 가장 자주 발생하는 원소입니다. 예를 들어, 표본 [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17]의 최빈값은 6입니다. 데이터의 목록 [1, 1, 2, 4, 4]이 주어지면, 그것의 최빈값은 고유하지 않습니다. 데이터집합은, 그러한 경우에서, 두-봉우리(bimodal)라고 말해지고, 반면에 두 개보다 많은 최빈값을 갖는 집단은 여러-봉우리(multimodal)로 설명될 수 있습니다.
[0.935..., 1.211..., 2.430..., 3.668..., 3.874...]와 같은 연속 분포에서 표본에 대해, 둘의 값이 정확하게 같게 될 수 없으므로, 각 값은 정확히 한 번만 발생할 것이기 때문에, 그 개념은 원시 형식으로 사용될 수 없습니다. 놓여있는 분포의 최빈값을 추정하기 위해, 보통의 관행은 히스토그램(histogram)을 만드는 것과 같이 같은 거리의 구간(interval)에 빈도 값을 할당함으로써 데이터를 이산화하고, 그것들이 할당된 구격의 중간점으로 값을 효과적으로 대체하는 것입니다. 최빈값은 그런-다음 히스토그램이 꼭대기에 도달하는 값입니다. 작거나 중간-크기의 표본에 대해, 이 절차의 결과는 너무 좁거나 너무 넓으면 구간 너비의 선택에 민감합니다; 전형적으로 데이터의 상당한 부분이 비교적 적은 수의 구간 (5에서 10)에 집중되어 있어야 하고, 반면에 이들 간격을 벗어나는 데이터의 부분도 상당합니다. 대안적인 접근 방식은 커널 밀도 추정(kernel density estimation)으로, 기본적으로 최빈값의 추정을 제공할 수 있는 확률 밀도 함수의 연속 추정을 생성하기 위해 점 표본을 흐리게 합니다.
다음 매트랩 (또는 옥타브(Octave)) 코드 예제는 표본의 최빈값을 계산합니다:
X = sort(x); % x is a column vector dataset
indices = find(diff([X; realmax]) > 0); % indices where repeated values change
[modeL,i] = max (diff([0; indices])); % longest persistence length of repeated values
mode = X(indices(i));
알고리듬은 표본을 오름차순으로 정렬하는 첫 번째 단계로 요구합니다. 그것은 그런-다음 정렬된 목록의 이산 도함수를 계산하고, 이 도함수가 양수인 인덱스를 찾습니다. 다음으로 그것은 이 인덱스 집합의 이산 도함수를 계산하여, 이 인덱스 도함수의 최댓값을 찾고, 마지막으로 반복된 값의 확장의 마지막 구성원에 해당하는 최댓값이 발생하는 지점에서 정렬된 표본을 평가합니다.
Comparison of mean, median and mode
Use
평균과 중앙값과 달리, 최빈값의 개념은 "명목 데이터(nominal data)" (즉, 평균의 경우에서 숫자 값으로 구성되지 않거나, 중앙값의 경우에서 순서화된 값으로 구성되지 않음)에도 의미가 있습니다. 예를 들어, 한국인의 성의 표본을 취하면, "김"이 임의의 다른 이름보다 더 자주 등장한다는 것을 알 수 있습니다. 그런-다음 "김"이 표본의 최빈값일 것입니다. 다수가 승리를 결정하는 임의의 투표 시스템에서, 단일 봉우리 값이 승자를 결정하고, 반면에 여러-꼭대기 결과는 진행하기 위해 어떤 동점을 결정하는 절차를 요구합니다.
중앙값과 달리, 최빈값의 개념은 실수(real number) (일-차원 벡터 공간)와 정수(integer) (실수에 삽입된 것으로 고려될 수 있음)를 포함하여 벡터 공간(vector space)에서 값을 가정하는 임의의 무작위 변수에 대해 의미가 있습니다. 예를 들어, 평면(plane)에서 점의 분포는 전형적으로 평균과 최빈값을 가질 것이지만, 중앙값의 개념은 적용되지 않습니다. 가능한 값에 선형 순서가 있을 때 중앙값이 의미가 있습니다. 고-차원 공간에 대한 중앙값 개념의 일반화는 기하학적 중앙값(geometric median)과 중심점(centerpoint)입니다.
Uniqueness and definedness
일부 확률 분포에 대해, 예상된 값은 무한하거나 정의되지 않을 수 있지만, 만약 정의되면 그것은 고유합니다. (유한) 표본의 평균은 항상 정의됩니다. 중앙값은 그것을 초과하지 않고 그것 미만으로 떨어지지 않는 분수가 각각 적어도 1/2을 만족하는 값입니다. 그것은 반드시 고유하지는 않지만, 결코 무한하거나 완전하게 정의되지 않은 것은 아닙니다. 데이터 표본에 대해, 그것은 값의 목록이 증가하는 값으로 순서화될 때 "중간" 값이며, 여기서 보통 짝수 길이의 목록에 대해 수치적 평균은 "중간"에 가장 가까운 두 값으로 취합니다. 마지막으로, 앞서 말했듯이, 최빈값은 반드시 고유한 것은 아닙니다. 특정 병리학적(pathological) 분포 (예를 들어, 칸토어 분포(Cantor distribution))는 정의된 최빈값이 전혀 없습니다. 유한 데이터 표본에 대해, 최빈값은 표본에서 값 중 하나 (또는 그 이상)입니다.
Properties
정의를 가정하고, 단순성을 위해, 다음은 가장 흥미로운 속성 중 일부입니다.
- 모든 셋의 측정은 다음 속성을 가집니다: 만약 확률 변수 (또는 표본에서 각 값)가 X를 aX + b로 대체하는 선형 또는 아핀 변환(affine transformation)의 대상이면, 평균, 중앙값 및 최빈값도 마찬가지입니다.
- 극단적으로 작은 표본을 제외하고, 최빈값은 "이상값(outliers)" (예를 들어, 가끔, 드물게, 잘못된 실험 판독값)에 둔감합니다. 중앙값은 역시 이상값의 존재에서 매우 강건하지만, 평균은 다소 민감합니다.
- 연속 단일-봉우리 분포(unimodal distribution)에서, 중앙값은 종종 평균과 최빈값 사이에 놓이며, 약 1/3이 평균에서 최빈값으로 이동합니다. 공식에서, 중앙값 ≈ (2 × 평균 + 최빈값)/3입니다. 칼 피어슨(Karl Pearson)에 기인하는 이 규칙은 정규 분포와 유사한 약간 비-대칭 분포에 종종 적용되지만, 그것이 항상 참은 아니고 일반적으로 셋의 통계량이 임의의 순서로 나타날 수 있습니다.
- 단일-봉우리 분포에 대해, 최빈값은 평균의 \(\sqrt{3}\) 표준 편차 내에 있고, 최빈값에 대한 평균 제곱근 편차는 표준 편차와 표준 편차의 두 배 사이에 있습니다.
Example for a skewed distribution
기울어진(skewed) 분포의 예제는 개인의 재산입니다: 매우 부유한 사람은 거의 없지만, 그 중 일부는 매우 부자입니다. 어쨌든, 많은 사람들이 오히려 가난합니다.
임의적으로 기울어질 수 있는 잘-알려진 분포의 클래스는 로그-정규 분포(log-normal distribution)에 의해 제공됩니다. 그것은 정규분포를 갖는 확률변수 X를 확률변수 \(Y=e^X\)로 변환함으로써 얻어집니다. 그런-다음 확률 변수 Y의 로그는 정규적으로 분포된 것이므로, 그 이름이 지정됩니다.
X의 평균 μ를 0으로 취하면, X의 표준 편차(standard deviation) σ와 독립적인 Y의 중앙값은 1일 것입니다. 이것은 X가 대칭 분포를 가지므로, 그것의 중앙값은 역시 0이기 때문입니다. X에서 Y로의 변환은 단조적이고, 따라서 Y에 대해 중앙값 \(e^0=1\)을 찾습니다.
X가 표준 편차 σ = 0.25를 가질 때, Y의 분포가 약하게 치우친 것입니다. 로그-정규 분포(log-normal distribution)에 대한 공식을 사용하여, 다음을 찾습니다:
\(\quad\displaystyle \begin{array}{rlll}
\text{mean} & = e^{\mu + \sigma^2 / 2} & = e^{0 + 0.25^2 / 2} & \approx 1.032 \\
\text{mode} & = e^{\mu - \sigma^2} & = e^{0 - 0.25^2} & \approx 0.939 \\
\text{median} & = e^\mu & = e^0 & = 1
\end{array}\)
사실, 중앙값이 평균에서 최빈값으로 가는 과정에서 약 1/3입니다.
X가 더 큰 표준 편차, σ = 1을 가질 때, Y의 분포는 강하게 기울어진 것입니다. 이제
\(\quad\displaystyle \begin{array}{rlll}
\text{mean} & = e^{\mu + \sigma^2 / 2} & = e^{0 + 1^2 / 2} & \approx 1.649 \\
\text{mode} & = e^{\mu - \sigma^2} & = e^{0 - 1^2} & \approx 0.368 \\
\text{median} & = e^\mu & = e^0 & = 1
\end{array}\)
여기서, 피어슨의 엄지의 규칙은 실패합니다.
Van Zwet condition
Van Zwet는 이 부등식이 유지되기에 충분 조건을 제공하는 부등식을 도출했습니다. 다음 부등식은
\(\quad\)Mode ≤ Median ≤ Mean
만약 x에 대해 다음이면 유지됩니다:
\(\quad\)F( Median - x ) + F( Median + x ) ≥ 1
여기서 F()는 분포의 누적 분포 함수(cumulative distribution function)입니다.
Unimodal distributions
단일-봉우리 분포에 대해 중앙값 \(\tilde{X}\)과 평균 \(\bar{X}\)는 서로 \((3/5)^{1/2} \approx 0.7746\) 표준 편차 내에 놓이는 것을 보일 수 있습니다. 기호에서,
\(\quad\displaystyle \frac{\left|\tilde{X} - \bar{X}\right|}{\sigma} \le (3/5)^{1/2}\)
여기서 \(|\cdot|\)는 절댓값입니다.
비슷한 관계가 중앙값과 최빈값 사이에도 유지됩니다: 그것들은 서로의 \(3^{1/2} \approx 1.732\) 표준 편차 내에 놓입니다:
\(\quad\displaystyle \frac{\left|\tilde{X} - \mathrm{mode}\right|}{\sigma} \le 3^{1/2}.\)
History
용어 최빈값은 1895년에 카를 피어슨(Karl Pearson)에 의해 기원됩니다.
피어슨은 용어 mode를 maximum-ordinate와 서로-교환되는 의미로 사용합니다. 각주에서, 그는 말합니다: "나는 최대 주파수의 올디닛에 해당하는 앱시서에 대해 mode라는 용어를 사용하는 것이 편리하다는 것을 알았습니다."
See also
References
- Damodar N. Gujarati f Econometrics. McGraw-Hill Irwin. 3rd edition, 2006: p. 110.probability distribution]]
- Zhang, C; Mapes, BE; Soden, BJ (2003). "Bimodality in tropical water vapour". Q J R. Meteorol Soc. 129: 2847–2866. doi:10.1256/qj.02.16.
- "AP Statistics Review - Density Curves and the Normal Distributions". Archived from the original on 2 April 2015. Retrieved 16 March 2015.
- "Relationship between the mean, median, mode, and standard deviation in a unimodal distribution".
- Hippel, Paul T. von (2005). "Mean, Median, and Skew: Correcting a Textbook Rule". Journal of Statistics Education. 13 (2). doi:10.1080/10691898.2005.11910556.
- Bottomley, H. (2004). "Maximum distance between the mode and the mean of a unimodal distribution" (PDF). Unpublished preprint.
- van Zwet, WR (1979). "Mean, median, mode II". Statistica Neerlandica. 33 (1): 1–5. doi:10.1111/j.1467-9574.1979.tb00657.x.
- Basu, Sanjib; Dasgupta, Anirban (1997). "The mean, median, and mode of unimodal distributions: a characterization". Theory of Probability & Its Applications. 41 (2): 210–223. doi:10.1137/S0040585X97975447.
- Pearson, Karl (1895). "Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material" (PDF). Philosophical Transactions of the Royal Society of London A. 186: 343–414. doi:10.1098/rsta.1895.0010.
External links
- "Mode", Encyclopedia of Mathematics, EMS Press, 2001 [1994]
- A Guide to Understanding & Calculating the Mode
- Weisstein, Eric W. "Mode". MathWorld.
- Mean, Median and Mode short beginner video from Khan Academy