통계적 추론(statistical inference), 구체적으로 예측 추론(predictive inference)에서, 예측 구간은 이미 관측되어 온 것이 주어졌을 때 특정 확률을 갖는 미래의 관측이 떨어질 구간(interval)의 추정입니다. 예측 구간은 종종 회귀 분석(regression analysis)에서 사용됩니다.
예측 구간은 빈도주의 통계(frequentist statistics)와 베이즈 통계(Bayesian statistics) 둘 다에서 사용됩니다: 예측 구간은 빈도주의 신뢰 구간(confidence interval) 또는 베이즈 신용 구간(credible interval)이 비-관측가능한 모집단 매개-변수에 대해 가지는 미래 관측과 같은 관계를 가집니다: 예측 구간은 개별 미래 점의 분포를 예측하고, 반면에 매개-변수의 신뢰 구간과 신용 구간은 참 모집단 평균의 추정 또는 관찰될 수 없는 다른 관심의 양의 분포를 예측합니다.
Introduction
예를 들어, 만약 우리가 놓여있는 분포가 정규 분포(normal distribution)이고, 표본 집합
대안적으로, 베이즈 용어(Bayesian terms)에서, 예측 구간은 그것으로부터 분포의 매개변수에 대한 것이 아니라 변수 자체에 대해 신용 구간으로 설명될 수 있습니다.
예측 구간의 개념은 단일 미래 표본 값에 대한 추론에 제한될 필요는 없지만 더 복잡한 경우로 확장될 수 있습니다. 예를 들어, 분석이 종종 연도 중 가장 큰 유량의 연간 값을 기반으로 하는 많은 강 홍수의 문맥에서, 향후 50년 이내에 경험될 수 있는 가장 큰 홍수에 대한 추론에 관심이 있을 수 있습니다.
예측 구간은 비-관찰가능 모집단 매개변수가 아니라 과거와 미래의 관찰 내에 오직 관련되기 때문에, 그것들은 시모어 가이서(Seymour Geisser)와 같은 일부 통계학자와 뒤따르는 브루노 데 피네티(Bruno de Finetti)에 의해 관찰가능에 초점을 맞춘 후 신뢰 구간보다 더 나은 방법으로 옹호되었습니다.
Normal distribution
매개변수가 알려져 있지 않은 정규 분포(normal distribution)에서 표본이 주어지면, 빈도주의주 의미에서 예측 구간, 즉, 반복된 실헝에서,
빈도주의 예측 구간의 일반적인 기법은 지금까지 관찰된 값의 항,
Known mean, known variance
알려진 평균(mean)과 분산(variance)을 갖는 정규 분포
여기서
따라서
또는
여기서 z는 표준 정규 분포에서 분위-숫자(quantile)이며, 이것에 대해:
또는 동등하게;

예측 구간은 관례적으로 다음으로 쓰입니다:
예를 들어, 5의 평균과 1의 표준 편차 (σ)를 갖는 정규 분포에 대해 95% 예측 구간을 계산하기 위해, z는 근사적으로 2입니다. 그러므로, 예측 구간의 아래쪽 극한은 근사적으로 5 ‒ (2·1) = 3이고, 위쪽 극한은 근사적으로 5 + (2·1) = 7이고, 따라서 근사적으로 3에서 7의 예측 구간을 제공합니다.
Estimation of parameters
미지수 매개변수를 갖는 분포에 대해, 예측에 대한 직접적인 접근 방식은 매개변수를 추정하고 그런-다음 결합된 분위-숫자 함수를 사용하는 것입니다 – 예를 들어, 우리는 표본 평균
이 접근 방식은 사용할 수 있지만, 결과 구간은 반복된 표본화 해석을 가지지 않을 것입니다 – 그것은 예측 신뢰 구간이 아닙니다.
후속적으로, 표본 평균을 사용합니다:
그리고 (불편향) 표본 분산:
Unknown mean, known variance
미지수 평균 μ을 가지지만 알려진 분산 1을 갖는 정규 분포가 주어지면, 관측
이러한 예측 분포는 추정된 평균
Known mean, unknown variance
반대로, 알려진 평균 0을 갖지만 미지수 분산
반면에 미래 관측
미래 관측과 표본 표준 편차의 비율을 취하면 σ를 제거하고, n – 1 자유도(degrees of freedom)를 갖는 스튜던트의 t-분포(Student's t-distribution)를 산출합니다:
이 예측 분포는 추정된 표준 편차
Unknown mean, unknown variance
미지수 μ와
이 간단한 조합이 가능한데 왜냐하면 정규 분포의 표본 평균과 표본 분산이 독립적 통계이기 때문입니다; 이것은 오직 정규 분포에 대해 참이고, 실제로 정규 분포를 특성화합니다.
주어진 구간 안에 떨어질
여기서
Non-parametric methods
우리는 모집단에 대한 임의의 가정없이 예측 구간을 계산할 수 있습니다; 형식적으로, 이것은 비-매개변수적(non-parametric) 방법입니다. 만약 우리가 동일한 확률 변수
이것은 미래 관측이 범위에 떨어질 확률을 제공하지만, 그것은 선분에서 그것이 어디에 떨어질지에 대한 임의의 추정을 제공하지 않음을 주목하십시오 – 특히, 만약 그것이 관측된 값의 범위 밖에 떨어지면, 그것은 범위 밖에 멀리 떨어질 수 있습니다. 추가적인 논의에 대해 극단 값 이론(extreme value theory)을 참조하십시오. 형식적으로, 이것은 모집단에서 단지 표본화에 적용되는 것이 아니지만, 확률 변수의 임의의 교환-가능 수열(exchangeable sequence)에 적용되며, 반드시 독립적이거나 동일하게 분포될(identically distributed) 필요는 없습니다.
Contrast with other intervals
Contrast with confidence intervals
예측 신뢰 구간에 대한 공식에서 언급 없음은 모집단 평균과 표준 편차의 비-관찰가능 매개변수 μ와 σ의 것에 만들어집니다 – 표본 평균과 표준 편차의 관찰된 표본 통계량
표본 통계를 모집단 매개변수의 추정량으로 사용하고 이들 추정량에 신뢰 구간을 적용하는 것이 아니라, 우리는 "다음 표본"
매개변수 신뢰 구간에서, 우리는 모집단 매개변수를 추정합니다; 만약 우리가 이것을 다음 표본의 예측으로 해석하기를 원하면, 우리는 (추정된) 모집단 분포를 사용하여 이 추정된 모집단에서 하나의 추출로 "다음 표본"을 모델링합니다. 대조적으로, 예측 신뢰 구간에서, 우리는 그러한 모집단에서 n 또는 n + 1 관측의 표본 (통계량)의 표본화 분포를 사용하고, 모집단 분포는, 비록 그것의 형식에 대한 가정 (비록 그것의 매개변수의 값이 아닐지라도)이 표본화 분포를 계산하는 데 사용될지라도, 직접 사용되지 않습니다.
Contrast with tolerance intervals
Applications
예측 구간은 공통적으로 혈액 검사(blood test)가 정상인지 아닌지의 아이디어를 제공하기 위해 혈액 검사에 대한 참조 범위(reference ranges for blood tests)와 같은 참조 범위(reference range)의 정의로 사용됩니다. 이런 목적을 위해, 가장 공통적으로 사용되는 예측 구간은 95% 예측 구간이고, 그것을 기반으로 하는 참조 범위는 표준 참조 범위라고 불릴 수 있습니다.
Regression analysis
예측 구간의 공통적인 응용은 회귀 분석(regression analysis)에 대한 것입니다.
그 데이터가 직선 회귀로 모델링된다고 가정합니다:
여기서
단순 선형 회귀(simple linear regression)에서와 같은 매개변수에 대해 추정
(회귀 직선 위의 점), 반면에 실제 응답은 다음일 것입니다:
점 추정(point estimate)
예측 구간은 대신 우리가 떨어질
회귀에서, Faraway (2002, p. 39)는 평균 응답의 예측을 위한 구간과 관찰된 응답의 예측을 위한 구간 사이의 구별을 만듭니다–이것은 본질적으로 위의 확장 인수에서 제곱근 내에 단위 항의 포함 여부에 영향을 미칩니다; 자세한 내용에 대해 Faraway (2002)를 참조하십시오.
Bayesian statistics
예측 추론의 지지자, 시모어 가이저(Seymour Geisser)는 베이즈 통계(Bayesian statistics)의 예측 응용을 제공합니다.
베이즈 통계에서, 우리는 확률 변수의 이후 확률(posterior probability)로부터 (베이즈) 예측 구간을 신용 구간(credible interval)으로 계산할 수 있습니다. 이론적 연구에서, 신용 구간은 종종 미래 사건의 예측을 위해 계산되지 않고 매개변수의 추론을 위해 – 즉, 변수 자체의 결과에 대한 것이 아니라 매개변수의 신용 구간에 대해 계산됩니다. 어쨌든, 특히 응용이 아직 관찰되지 않은 경우의 가능한 극단값과 관련된 곳에서, 그러한 값에 대해 신용 구간이 실질적으로 중요할 수 있습니다.
References
- Faraway, Julian J. (2002), Practical Regression and Anova using R (PDF)
- Geisser, Seymour (1993), Predictive Inference, CRC Press
- Sterne, Jonathan; Kirkwood, Betty R. (2003), Essential Medical Statistics, Blackwell Science, ISBN 0-86542-871-9
Further reading
- Chatfield, C. (1993). "Calculating Interval Forecasts". Journal of Business & Economic Statistics. 11 (2): 121–135. doi:10.2307/1391361.
- Lawless, J. F.; Fredette, M. (2005). "Frequentist prediction intervals and predictive distributions". Biometrika. 92 (3): 529–542. doi:10.1093/biomet/92.3.529.
- Meade, N.; Islam, T. (1995). "Prediction Intervals for Growth Curve Forecasts". Journal of Forecasting. 14 (5): 413–430. doi:10.1002/for.3980140502.
- ISO 16269-8 Standard Interpretation of Data, Part 8, Determination of Prediction Intervals