주어진 데이터로부터, 산술 평균, 중앙값, 최빈값을 구하는 것은 데이터의 중심 경향을 나타내는 대푯값을 설정하는 것입니다.
어떤 경우에서, 이 대푯값으로는 데이터의 성격을 규정하는 것이 어려울 수 있습니다.
예를 들어, 다음 두 가지 데이터를 생각해 보십시오:
- 데이터 A: \(80, 80, 85, 85, 90, 90, 95, 95, 100, 100\)
- 데이터 B: \(85, 85, 90, 90, 90, 90, 90, 90, 95, 95\)
데이터 A, B는 둘 다 90의 산술 평균을 가지고, 90의 중앙값을 가지고, 데이터 A는 80, 85, 90, 95, 100의 최빈값을 가지고, 데이터 B는 90의 최빈값을 가집니다.
어쨌든, 산술 평균과 중앙값은 같고, 최빈값은 매우 다른 값을 가지는데, 데이터의 형태는 상당한 차이를 보입니다. 데이터 A는 주어진 값이 고르게 분포되어 있지만, 데이터 B는 90에 집중된 형태임을 알 수 있습니다.
이와 같이 중심 경향으로 데이터를 분석하는 것이 어떤 데이터, 또는 집단의 특징을 파악하는 것이 적절히 않을 때에는 다른 지표를 사용하여 데이터를 분석할 필요가 있습니다.
이 중에서 가장 많이 사용하는 것이 데이터가 평균에서 얼마나 흩어져 있는 정도를 나타내는 산포도입니다.
먼저, 편차는 각 자료에서 산술 평균을 뺀 값을 말합니다. 위의 데이터 A, B로부터 편차를 순서대로 구해보면,
- 편차 A: \(-10, -10, -5, -5, 0, 0, 5, 5, 10, 10\)
- 편차 B: \(-5, -5, 0, 0, 0, 0, 0, 0, 5, 5\)
위의 결과로부터 각 데이터의 편차의 합은 항상 0을 만족하므로, 편차의 합의 평균 역시 0이 되어, 두 데이터를 분석하는 것이 불가능합니다.
따라서, 다른 방법을 통해, 두 값이 서로 다른 값을 갖도록 처리해서, 일관성 있게 데이터를 분석할 수 있도록 해야 합니다.
한 가지 방법으로는 편차의 절댓값을 취해서, 그것의 평균을 사용할 수 있습니다:
- 편차 A의 절댓값: \(10, 10, 5, 5, 0, 0, 5, 5, 10, 10\)
- 편차 B의 절댓값: \(5, 5, 0, 0, 0, 0, 0, 0, 5, 5\)
이제 편차의 절댓값의 평균을 구하면,
- 편차 A의 절댓값의 평균: \(\displaystyle \frac{10+10+5+5+0+0+5+5+10+10}{10}=6\)
- 편차 B의 절댓값의 평균: \(\displaystyle \frac{5+5+0+0+0+0+0+0+5+5}{10}=2\)
이 값이 크면 클수록 산술 평균에서 데이터들이 많이 흩어져 있고, 작으면 작을수록 산술 평균 가까이 집중해 있습니다.
어쨌든, 위의 방법을 사용하는 경우도 있지만, 보다 많이 사용하는 방법은 편차의 제곱을 통해서 평균을 구하는 방법을 사용하고, 이것을 분산이라고 부릅니다:
- 편차 A의 제곱: \(10^2, 10^2, 5^2, 5^2, 0, 0, 5^2, 5^2, 10^2, 10^2\)
- 편차 B의 제곱: \(5^2, 5^2, 0, 0, 0, 0, 0, 0, 5^2, 5^2\)
따라서,
- A의 분산: \(\displaystyle \frac{10^2+10^2+5^2+5^2+0+0+5^2+5^2+10^2+10^2}{10}=50\)
- B의 분산: \(\displaystyle \frac{5^2+5^2+0+0+0+0+0+0+5^2+5^2}{10}=10\)
이 결과로부터, 분산의 값이 클수록 데이터가 산술 평균으로부터 넓게 흩어져 있고, 작으면 작을수록 데이터가 산술 평균 주변으로 뭉쳐져 있습니다.
또한, 분산의 양의 제곱근을 표준편차라고 부릅니다.