수학(mathematics) 및 통계학(statistics)에서, 산술 평균(arithmetic mean) ( /ˌærɪθˈmɛtɪk ˈmiːn/, "arithmetic"의 첫 번째 및 세 번째 음절 위에 강세) 또는 단순히 문맥이 명확할 때, 평균(mean), 또는 average)은 숫자들의 모음의 합을 모음 안의 숫자들의 개수로 나누어진 값입니다. 모음은 종종 실험(experiment), 또는 관찰 연구(observational study)의 결과의 집합, 또는 자주 설문(survey)으로부터 결과의 집합입니다. 용어 "산술 평균"은, 기하 평균(geometric mean) 및 조화 평균(harmonic mean)과 같은, 다른 평균(mean)으로부터 그것을 구별해야 도움이 되기 때문에, 수학 및 통계학의 일부 문맥에서 선호됩니다.
수학 및 통계 외에도, 산술 평균은 경제학(economics), 인류학(anthropology), 및 역사(history)와 같은 많은 다양한 분야에서 자주 사용되고, 거의 모든 학문 분야에서 어느 정도까지 사용됩니다. 예를 들어, 일인당 소득(per capita income)은 국가 인구의 산술 평균 소득입니다.
산술 평균은 집중 경향값(central tendency)을 보고하기 위해서 종종 사용되지만, 강건한 통계량(robust statistic)가 아니며, (대부분의 값보다 매우 크거나 매우 작은 값들인) 이상값(outlier)에 의해 큰 영향을 받게 됨을 의미합니다. 현저하게, 몇몇 사람들의 소득이 대부분의 사람들의 소득보다 본질적으로 훨씬 큰 소득의 분포(distribution of income)와 같은, 기울어진 분배(skewed distribution)에 대해, 산술 평균은 자신의 개념인 "중간"과 일치하지 않을 수 있으며, 중앙값(median)과 같은, 강건한 통계량은 집중 경향값에 대한 더 나은 설명일 수 있습니다.
Definition
산술 평균(또는 평균), \(\bar{x}\) (\(x\) 바로 읽음)는, \(n\) 값 \(x_1,x_2,\ldots,x_n\)의 평균입니다.
산술 평균은 데이터 집합(data set)에서 가장 공통적으로 사용되고 중심 경향의 쉽게 이해되는 측정입니다. 통계학에서, 용어 평균(average)은 중심 경향에 대한 측정의 임의의 것을 참조합니다. 관측된 데이터의 집합의 산술 평균은 각각의 모든 관측치의 숫자 값의 합을 관측의 전체 회수로 나눈 것과 같은 것으로 정의됩니다. 기호적으로, 만약 우리가 값 \(a_1, a_2, \ldots, a_n\)으로 구성된 데이터 집합을 가지면, 산술 평균 \(A\)는 다음 공식에 의해 정의됩니다:
\(\quad\)\(\displaystyle A=\frac{1}{n}\sum_{i=1}^n a_i=\frac{a_1+a_2+\cdots+a_n}{n}\)
(합계 연산자(summation operator)의 표현에 대해 합계(summation)을 참조하십시오).
예를 들어, 회사의 10 직원의 월급: 2500, 2700, 2400, 2300, 2550, 2650, 2750, 2450, 2600, 2400을 생각해 보십시오. 산술 평균은 다음입니다:
\(\quad\)\(\displaystyle \frac{ 2500+ 2700+ 2400+ 2300+ 2550+ 2650+ 2750+ 2450+ 2600+ 2400}{10}=2530.\)
만약 데이터 집합이 통계적 모집단(statistical population)이면 (즉, 모든 각 가능한 관측으로 구성되고 그것의 부분집합이 아니면), 해당 모집단의 평균은 모집단 평균이라고 불립니다. 만약 데이터 집합이 통계적 표본(statistical sample)이면 (모집단의 부분집합이면), 우리는 이 계산으로부터 초래하는 통계량을 표본 평균이라고 부릅니다.
Motivating properties
산술 평균은 그것을 유용하게 만드는, 특히 중심 경향의 측정으로 여러 속성을 가집니다. 이것들은 다음을 포함합니다:
- 만약 숫자 \(x_1,\dotsc,x_n\)가 평균 \(\bar{x}\)을 가지면, \((x_1-\bar{x}) + \dotsb + (x_n-\bar{x}) = 0\)입니다. \(x_i-\bar{x}\)는 주어진 숫자에서 평균까지의 거리이므로, 이 속성을 해석하는 한 방법은 평균 왼쪽의 숫자가 평균의 오른쪽의 숫자에 의해 균형이 잡히는 것으로 말하는 것입니다. 평균은 잔여(residuals) (추정으로부터 편차)가 합해서 영이 되는 유일한 단일 숫자입니다.
- 만약 그것이 알려진 숫자 집합 \(x_1,\dotsc,x_n\)의 집합에 대해 "전형적인" 값으로 단일 숫자를 사용하는 것이 요구되면, 숫자의 산술 평균이 전형적인 값: \((x_i-\bar{x})^2\)의 합으로부터 제곱된 편차의 합을 최소화한다는 의미에서 가장 잘 수행됩니다. (표본 평균은 가장-낮은 제곱근 평균 제곱된 오차(root mean squared error)를 갖는다는 의미에서 역시 가장-좋은 단일 예측기임을 따릅니다.) 만약 숫자의 모집단의 산술 평균이 요구되면, 불편향(unbiased)인 그것의 추정은 모집단에서 추출한 표본의 산술 평균입니다.
Contrast with median
산술 평균은 중앙값(median)과 대조될 수 있습니다. 중앙값은 절반 이하의 값이 그 값보다 크고, 절반 이하가 작은 것을 만족하도록 정의됩니다. 만약 데이터에서 원소가 산술적으로 증가(increase arithmetically)하면, 어떤 순서로 배치될 때, 중앙값과 산술 평균은 같습니다. 예를 들어, 데이터 표본 \(\{1,2,3,4\}\)을 생각해 보십시오. 평균은 중앙값과 마찬가지로 \(2.5\)입니다. 어쨌든, 우리가 \(\{1,2,4,8,16\}\)와 같이 산술적으로 증가하도록 배열될 수 없는 표본을 고려할 때 중앙값과 산술 평균이 크게 다를 수 있습니다. 이 경우에서, 산술 평균은 6.2이고 중앙값은 4입니다. 일반적으로, 평균값은 표본에서 대부분의 값과 크게 다를 수 있고, 그들의 대부분의 값보다 크거나 작을 수 있습니다.
많은 분야에서 이 현상의 응용이 있습니다. 예를 들어, 1980년대 이후, 미국에서 중앙 소득은 소득의 산술 평균보다 느리게 증가해 왔습니다.
Generalizations
Weighted average
가중된 평균은 일부 데이터 점이 다른 것보다 더 많이 세는 것에서 평균이며, 그것에서 그들은 계산에 더 많은 가중이 부여됩니다. 예를 들어, \(3\)과 \(5\)의 산술 평균은 \(\frac{(3+5)}{2} = 4\), 또는 동등하게 \(\left( \frac{1}{2} \cdot 3\right) + \left( \frac{1}{2} \cdot 5\right) = 4\)입니다. 대조적으로, 가중된 평균은, 예를 들어, 첫 번째 숫자가 두 번째 것보다 두 배의 가중을 받는 가중 평균은, (아마도 이 숫자가 표본화된 일반 모집단에서 두 번 자주 나타나는 것으로 가정하기 때문입니다), \(\left( \frac{2}{3} \cdot 3\right) + \left(\frac{1}{3} \cdot 5\right) = \frac{11}{3}\)으로 계산되어야 합니다. 여기서, 반드시 합해서 값 일과 같아지는, 가중은 \((2/3)\)과 \((1/3)\)이며, 전자는 후자의 두 배입니다. 산술 평균은, (때때로 "비가중된 평균" 또는 "동일하게 가중된 평균"으로 불리움), 모든 가중이 서로 같은 가중된 평균의 특별한 경우로 해석될 수 있습니다 (위의 예제에서 \(\frac{1}{2}\)과 같고, 평균하려는 \(n\) 숫자를 가진 상황에서 \(\frac{1}{n}\)과 같습니다).
Continuous probability distributions
만약 수치 속성, 및 그것으로부터 데이터의 임의의 표본이, 예를 들어, 단지 정수 대신에 연속 범위에서 임의의 값을 취할 수있으면, 숫자가 가능한 값의 일부 범위 속에 떨어지는 확률(probability)은, 심지어 무한하게 많은 것으로부터 한 특정 값을 취하는 표본 숫자에 대해 소박한 확류링 영일 때라도, 이 범위에 걸쳐 연속 확률 변수(continuous probability distribution)를 적분함으로써 설명될 수 있습니다. 이러한 문맥에서, 각 범위에서 변수의 정확한 값에 대해 가능성의 무한 숫자가 있는, 가중된 평균의 아날로그가 확률 분포의 평균으로 불립니다. 가장 널리 발생하는 확률 분포는 정규 분포(normal distribution)라고 불립니다; 그것은 단지 평균뿐만 아니라 앞서-말한 중앙값과 최빈값(mode)을 포함한, 그것의 중심 경향의 모든 측정 값이 서로 같다는 속성을 가집니다 (Mean, Median, Mode를 세 개의 M이라고 합니다). 이 상등은, 여기에서 로그-정규 분포(lognormal distribution)에서 묘사된 것처럼, 다른 확률 분포에 대해 유지되지 않습니다.
Angles
특별한 주의는 위상 또는 각도(angle)와 같은 주기적 데이터를 사용할 때 반드시 취해져야 합니다. 1°와 359°의 산술 평균을 소박하게 취하면 180°의 결과를 산출합니다. 이것은 두 가지 이유로 올바르지 않습니다:
- 첫째, 각도 측정은 360° (또는, 만약 라디안(radian)에서 측정되면, 2π)의 덧셈의 상수까지 오직 정의됩니다. 따라서 우리는 이들 1° 및 −1°, 또는 361° 및 719°로 쉽게 호출할 수 있으며, 그것의 각각은 다른 평균을 제공합니다.
- 둘째, 이 상황에서, 0° (동등하게, 360°)는 기하학적으로 더 나은 평균 값입니다: 그것에 대한 더 낮은 산포도(dispersion)가 있습니다 (그 점들은 그것에서 1°, 180°에서 179° 둘 다, 추정 평균입니다).
일반적인 응용에서, 그러한 감시는 수치 범위의 중간을 향하여 움직이는 인위적으로 평균값으로 이어질 것입니다. 이 문제에 대한 해는 최적화 공식 (즉(viz.), 중심점으로 평균을 정의합니다: 가장 낮은 산포도를 가지는 점)을 정의하고, 모듈러 거리를 그 차이 (즉, 원 위의 거리: 따라서 1°과 359° 사이의 모듈러 거리는 358°이 아니라 2°입니다)로 재정의하는 것입니다.
Symbols and encoding
산술 평균은, 예를 들어 \(\bar{x}\)에서 처럼 (\(x\) 바로 읽음), 윗줄에 의해 종종 표시됩니다.
일부 소프트웨어 (텍스트 처리기(text processors), 웹 브라우저(web browser))는 적절하게 \(\bar{x}\) 기호로 표시되지 않을 수 있습니다. 예를 들어, HTML의 \(\bar{x}\) 기호는 실제로 두 코드 – 기본 문자 x와 위 줄에 대해 코드 (̄ 또는 ¯)를 더한 조합입니다.
pdfs와 같은 일부 텍스트에서 \(\bar{x}\) 기호는 마이크로소프트 워드와 같은 텍스트 처리기로 복사될 때 센트(cent) (¢) 기호 (유니코드 ¢)로 대체될 수 있습니다.
Further reading
- Huff, Darrell (1993). How to Lie with Statistics. W. W. Norton. ISBN 978-0-393-31072-6.