본문 바로가기
영문 위키피디아 번역

(번역) Prediction interval

by 다움위키 2024. 3. 20.
Original article: w:Prediction interval

 

통계적 추론(statistical inference), 구체적으로 예측 추론(predictive inference)에서, 예측 구간은 이미 관측되어 온 것이 주어졌을 때 특정 확률을 갖는 미래의 관측이 떨어질 구간(interval)의 추정입니다. 예측 구간은 종종 회귀 분석(regression analysis)에서 사용됩니다.

예측 구간은 빈도주의 통계(frequentist statistics)베이즈 통계(Bayesian statistics) 둘 다에서 사용됩니다: 예측 구간은 빈도주의 신뢰 구간(confidence interval) 또는 베이즈 신용 구간(credible interval)이 비-관측가능한 모집단 매개-변수에 대해 가지는 미래 관측과 같은 관계를 가집니다: 예측 구간은 개별 미래 점의 분포를 예측하고, 반면에 매개-변수의 신뢰 구간과 신용 구간은 참 모집단 평균의 추정 또는 관찰될 수 없는 다른 관심의 양의 분포를 예측합니다.

Introduction

예를 들어, 만약 우리가 놓여있는 분포가 정규 분포(normal distribution)이고, 표본 집합 \(\{X_1,...,X_n\}\)을 가지는 매개변수적 가정(parametric assumption)을 하면, 신뢰 구간과 신용 구간은 모집단 평균(population mean) μ와 놓여있는 모집합의 모집단 표준 편차(population standard deviation) σ를 추정하기 위해 사용될 수 있고, 반면에 예측 구간은 다음 표본 변수, \(X_{n+1}\)의 값을 추정하기 위해 사용될 수 있습니다.

대안적으로, 베이즈 용어(Bayesian terms)에서, 예측 구간은 그것으로부터 분포의 매개변수에 대한 것이 아니라 변수 자체에 대해 신용 구간으로 설명될 수 있습니다.

예측 구간의 개념은 단일 미래 표본 값에 대한 추론에 제한될 필요는 없지만 더 복잡한 경우로 확장될 수 있습니다. 예를 들어, 분석이 종종 연도 중 가장 큰 유량의 연간 값을 기반으로 하는 많은 강 홍수의 문맥에서, 향후 50년 이내에 경험될 수 있는 가장 큰 홍수에 대한 추론에 관심이 있을 수 있습니다.

예측 구간은 비-관찰가능 모집단 매개변수가 아니라 과거와 미래의 관찰 내에 오직 관련되기 때문에, 그것들은 시모어 가이서(Seymour Geisser)와 같은 일부 통계학자와 뒤따르는 브루노 데 피네티(Bruno de Finetti)에 의해 관찰가능에 초점을 맞춘 후 신뢰 구간보다 더 나은 방법으로 옹호되었습니다.

Normal distribution

매개변수가 알려져 있지 않은 정규 분포(normal distribution)에서 표본이 주어지면, 빈도주의주 의미에서 예측 구간, 즉, 반복된 실헝에서, \(X_{n+1}\)이 희망된 그 시간의 백분율 구간에 떨어짐을 만족하는 표본의 통계를 기반으로 하는 구간 [ab]를 제공하는 것이 가능합니다; 우리는 이들 "예측 신뢰 구간(confidence interval)"이라고 부를 수 있습니다.

빈도주의 예측 구간의 일반적인 기법은 지금까지 관찰된 값의 항, \(\displaystyle X_1,\dots,X_n\)에서 계산된 일부 구간에 떨어지는 미래 관측 \(X_{n+1}\)의 확률을 제공하기 위해 반전될 수 있는 관측-가능 \(X_1,...,X_n, X_{n+1}\)의 – 확률 분포가 매개변수에 의존하지 않는 관찰-가능의 함수와 매개변수를 의미하는 – 추축 수량(pivotal quantity) 을 찾고 계산하는 것입니다. 관찰-가능 항목에 오직 의존하는 그러한 추축 수량을 보조 통계량(ancillary statistic)이라고 불립니다. 추축 수량을 구성하는 보통의 방법은 위치가 상쇄되고 그런-다음 스케일에 의존하는 두 변수의 비율을 취하도록, 스케일이 상쇄되도록, 위치에 의존하는 두 변수의 차이를 취하는 것입니다. 가장 친숙한 추축 수량은 스튜던트의 t-통계량(Student's t-statistic)으로, 이 방법에 의해 도출될 수 있고 후속 통계량에서 사용됩니다.

Known mean, known variance

알려진 평균(mean)분산(variance)을 갖는 정규 분포 \(N(\mu, \sigma^2)\)에서 미래 관측 X에 대해 예측 구간 [,u]는 다음에서 계산될 수 있습니다:

\(\quad\displaystyle \gamma=P(\ell<X<u)=P\left(\frac{\ell-\mu} \sigma < \frac{X-\mu} \sigma < \frac{u-\mu} \sigma \right)=P\left(\frac{\ell-\mu} \sigma < Z < \frac{u-\mu} \sigma \right),\)

여기서 \(\displaystyle Z=\frac{X-\mu}{\sigma}\), X표준 점수(standard score)는 표준 정규로 분포됩니다.

따라서

\(\quad\displaystyle \frac{\ell-\mu} \sigma = -z, \quad \frac{u-\mu} \sigma = z,\)

또는

\(\quad\displaystyle \ell=\mu-z\sigma, \quad u=\mu+z\sigma,\)

여기서 z는 표준 정규 분포에서 분위-숫자(quantile)이며, 이것에 대해:

\(\quad\displaystyle \gamma=P(-z<Z<z).\)
또는 동등하게;

\(\quad\displaystyle \tfrac 12(1-\gamma)=P(Z>z).\)

예측 구간은 관례적으로 다음으로 쓰입니다:

\(\quad\displaystyle \left[\mu- z\sigma,\  \mu + z\sigma \right]. \)

예를 들어, 5의 평균과 1의 표준 편차 (σ)를 갖는 정규 분포에 대해 95% 예측 구간을 계산하기 위해, z는 근사적으로 2입니다. 그러므로, 예측 구간의 아래쪽 극한은 근사적으로 5 ‒ (2·1) = 3이고, 위쪽 극한은 근사적으로 5 + (2·1) = 7이고, 따라서 근사적으로 3에서 7의 예측 구간을 제공합니다.

Estimation of parameters

미지수 매개변수를 갖는 분포에 대해, 예측에 대한 직접적인 접근 방식은 매개변수를 추정하고 그런-다음 결합된 분위-숫자 함수를 사용하는 것입니다 – 예를 들어, 우리는 표본 평균 \(\displaystyle \overline{X}\)를 μ에 대한 추정치로 표본 분산(sample variance) \(s^2\)을 \(\sigma^2\)에 대해 추정치로 사용할 수 있습니다. 여기서 \(s^2\)에 대해 둘의 자연스러운 선택이 있음을 주목하십시오 –  \(\displaystyle (n-1)\)으로 나누면 불편향된 추정을 산출하고, 반면에 \(\displaystyle n\)으로 나누면 최대 가능도 추정량(maximum likelihood estimator)을 산출하고, 둘 중 하나가 사용될 수 있습니다. 우리는 그런-다음 예측 구간을 제공하기 위해 이들 추정된 매개변수 \(\displaystyle \Phi^{-1}_{\overline{X},s^2}\)를 갖는 분위-숫자 함수를 사용합니다.

이 접근 방식은 사용할 수 있지만, 결과 구간은 반복된 표본화 해석을 가지지 않을 것입니다 – 그것은 예측 신뢰 구간이 아닙니다.

후속적으로, 표본 평균을 사용합니다:

\(\quad\displaystyle \overline{X} = \overline{X}_n=(X_1+\cdots+X_n)/n\)

그리고 (불편향) 표본 분산:

\(\quad\displaystyle s^2 = s_n^2={1 \over n-1}\sum_{i=1}^n (X_i-\overline{X}_n)^2.\)

Unknown mean, known variance

미지수 평균 μ을 가지지만 알려진 분산 1을 갖는 정규 분포가 주어지면, 관측 \(\displaystyle X_1,\dots,X_n\)의 표본 평균 \(\displaystyle \overline{X}\)은 분포 \(\displaystyle N(\mu,1/n)\)를 가지고, 반면에 미래 관측 \(\displaystyle X_{n+1}\)은 분포 \(\displaystyle N(\mu,1)\)를 가집니다. 이것들의 차이를 취하면 μ를 삭제하고 분산 \(\displaystyle 1+(1/n)\)의 정규 분포를 산출하고, 따라서 다음입니다:

\(\quad\displaystyle \frac{X_{n+1}-\overline{X}}{\sqrt{1+(1/n)}} \sim N(0,1).\)

\(\displaystyle X_{n+1}\)에 대해 풀면 예측 분포 \(\displaystyle N(\overline{X},1+(1/n))\)를 제공하며, 이것으로부터 우리는 이전처럼 구간을 계산할 수 있습니다. 이것은 만약 우리가 100p%의 분위-숫자 범위를 사용하면, 이 계산의 반복된 적용에서, 미래 관측 \(\displaystyle X_{n+1}\)이 그 시간의 예측된 구간 100p% 안에 떨어질 것이라는 의미에서 예측 신뢰 구간입니다.

이러한 예측 분포는 추정된 평균 \(\displaystyle \overline{X}\)과 알려진 분산 1을 사용하는 것보다 더 보수임을 주목하는데, 왜냐하면 이것은 분산 \(\displaystyle 1+(1/n)\)을 사용하고, 따라서 더 넓은 구간을 산출하기 때문입니다. 이것은 원하는 신뢰 구간 속성을 유지하기 위해 필요합니다.

Known mean, unknown variance

반대로, 알려진 평균 0을 갖지만 미지수 분산 \(\displaystyle \sigma^2\)을 갖는 정규 분포가 주어지면, 관측 \(\displaystyle X_1,\dots,X_n\)의 표본 분산 \(\displaystyle s^2\)은, 스케일까지, \(\displaystyle \scriptstyle\chi_{n-1}^2\) 분포를 가집니다; 보다 정확하게:

\(\quad\displaystyle \frac{(n-1)s_n^2}{\sigma^2} \sim \chi_{n-1}^2.\)

반면에 미래 관측 \(\displaystyle X_{n+1}\)은 분포 \(\displaystyle N(0,\sigma^2)\)를 가집니다.
미래 관측과 표본 표준 편차의 비율을 취하면 σ를 제거하고, n – 1 자유도(degrees of freedom)를 갖는 스튜던트의 t-분포(Student's t-distribution)를 산출합니다:

\(\quad\displaystyle \frac{X_{n+1}} s \sim T^{n-1}.\)

\(\displaystyle X_{n+1}\)에 대해 풀면 예측 구간 \(\displaystyle sT^{n-1}\)을 제공하며, 이것으로부터 우리는 이전처럼 구간을 계산할 수 있습니다.

이 예측 분포는 추정된 표준 편차 \(\displaystyle s\)와 알려진 평균 0을 갖는 정규 분포를 사용하는 것보다 더 보수적임을 주목하는데, 왜냐하면 그것은 정규 분포 대신 t-분포를 사용하고, 따라서 더 넓은 구간을 산출하기 때문입니다. 이것은 원하는 신뢰 구간 속성을 유지하기 위해 필요합니다.

Unknown mean, unknown variance

미지수 μ와 \(\sigma^2\) 둘 다를 갖는 정규 분포 \(\displaystyle N(\mu,\sigma^2)\)에 대해 위를 계산하면 다음 보조 통계량을 산출합니다:

\(\quad\displaystyle \frac{X_{n+1}-\overline{X}_n}{s_n\sqrt{1+1/n}} \sim T^{n-1}.\)

이 간단한 조합이 가능한데 왜냐하면 정규 분포의 표본 평균과 표본 분산이 독립적 통계이기 때문입니다; 이것은 오직 정규 분포에 대해 참이고, 실제로 정규 분포를 특성화합니다.

\(\displaystyle X_{n+1}\)에 대해 풀면 예측 분포를 산출합니다:

\(\quad\displaystyle \overline{X}_n + s_n\sqrt{1+1/n} \cdot T^{n-1}.\)

주어진 구간 안에 떨어질 \(\displaystyle X_{n+1}\)의 확률은 그때에 다음입니다: 

\(\quad\displaystyle \Pr\left(\overline{X}_n-T_a s_n\sqrt{1+(1/n)}\leq X_{n+1}   \leq\overline{X}_n+T_a s_n\sqrt{1+(1/n)}\,\right)=p\)

여기서 \(T_a\)는 n − 1 자유도를 갖는 스튜던트의 t-분포(Student's t-distribution)의 \(100(1-p/2)^{\rm 번째}\) 백분위수(percentile)입니다. 그러므로, 그 숫자는

\(\quad\displaystyle \overline{X}_n \pm T_a s_n \sqrt{1+(1/n)}\)

\(\displaystyle X_{n+1}\)에 대해 100(1 − p)% 예측 구간의 끝점입니다.

Non-parametric methods

우리는 모집단에 대한 임의의 가정없이 예측 구간을 계산할 수 있습니다; 형식적으로, 이것은 비-매개변수적(non-parametric) 방법입니다. 만약 우리가 동일한 확률 변수 \(\{X_1,...,X_n\}\)의 표본을 가지면, 다음 관측 \(X_{n+1}\)이 가장 큰 것이 될 확률은 1/(n + 1)인데, 왜냐하면 모든 관측은 최댓값이 될 같은 확률을 가지기 때문입니다. 같은 방법에서, \(X_{n+1}\)가 가장 작은 것이 될 확률은 1/(n + 1)입니다. 그 시간의 다른 (n − 1)/(n + 1), \(X_{n+1}\)은 표본 \(\{X_1,...,X_n\}\)의 표본 최댓값(sample maximum)표본 최솟값(sample minimum)의 사이에 떨어집니다. 따라서, Mm으로 최댓값과 최솟값을 나타내면, 이것은 [mM]의 (n − 1)/(n + 1) 예측 구간을 산출합니다.

이것은 미래 관측이 범위에 떨어질 확률을 제공하지만, 그것은 선분에서 그것이 어디에 떨어질지에 대한 임의의 추정을 제공하지 않음을 주목하십시오 – 특히, 만약 그것이 관측된 값의 범위 밖에 떨어지면, 그것은 범위 밖에 멀리 떨어질 수 있습니다. 추가적인 논의에 대해 극단 값 이론(extreme value theory)을 참조하십시오. 형식적으로, 이것은 모집단에서 단지 표본화에 적용되는 것이 아니지만, 확률 변수의 임의의 교환-가능 수열(exchangeable sequence)에 적용되며, 반드시 독립적이거나 동일하게 분포될(identically distributed) 필요는 없습니다.

Contrast with other intervals

Contrast with confidence intervals

예측 신뢰 구간에 대한 공식에서 언급 없음은 모집단 평균과 표준 편차의 비-관찰가능 매개변수 μσ의 것에 만들어집니다 – 표본 평균과 표준 편차의 관찰된 표본 통계량 \(\displaystyle \overline{X}_n\)와 \(\displaystyle S_n\)을 사용되고, 추정되는 것은 미래 표본의 결과입니다.

표본 통계를 모집단 매개변수의 추정량으로 사용하고 이들 추정량에 신뢰 구간을 적용하는 것이 아니라, 우리는 "다음 표본" \(\displaystyle X_{n+1}\)을 자체 통계량으로 고려하고, 그것의 표본화 분포(sampling distribution)를 계산합니다.

매개변수 신뢰 구간에서, 우리는 모집단 매개변수를 추정합니다; 만약 우리가 이것을 다음 표본의 예측으로 해석하기를 원하면, 우리는 (추정된) 모집단 분포를 사용하여 이 추정된 모집단에서 하나의 추출로 "다음 표본"을 모델링합니다. 대조적으로, 예측 신뢰 구간에서, 우리는 그러한 모집단에서 n 또는 n + 1 관측의 표본 (통계량)의 표본화 분포를 사용하고, 모집단 분포는, 비록 그것의 형식에 대한 가정 (비록 그것의 매개변수의 값이 아닐지라도)이 표본화 분포를 계산하는 데 사용될지라도, 직접 사용되지 않습니다.

Contrast with tolerance intervals

Applications

예측 구간은 공통적으로 혈액 검사(blood test)가 정상인지 아닌지의 아이디어를 제공하기 위해 혈액 검사에 대한 참조 범위(reference ranges for blood tests)와 같은 참조 범위(reference range)의 정의로 사용됩니다. 이런 목적을 위해, 가장 공통적으로 사용되는 예측 구간은 95% 예측 구간이고, 그것을 기반으로 하는 참조 범위는 표준 참조 범위라고 불릴 수 있습니다.

Regression analysis

예측 구간의 공통적인 응용은 회귀 분석(regression analysis)에 대한 것입니다.

그 데이터가 직선 회귀로 모델링된다고 가정합니다:

\(\quad\displaystyle y_i=\alpha+\beta x_i +\varepsilon_i\,\)

여기서 \(\displaystyle y_i\)는 응답 변수(response variable), \(\displaystyle x_i\)는 설명 변수(explanatory variable), \(\epsilon_i\)는 확률 오차 항, 및 \(\displaystyle \alpha\)와 \(\displaystyle \beta\)는 매개변수입니다.

단순 선형 회귀(simple linear regression)에서와 같은 매개변수에 대해 추정 \(\displaystyle \hat \alpha\)와 \(\displaystyle \hat \beta\)가 주어지면, 주어진 설명 값 \(x_d\)에 대해 예측된 응답 값 \(y_d\)는 다음입니다:

\(\quad\displaystyle \hat{y}_d=\hat\alpha+\hat\beta x_d ,\)

(회귀 직선 위의 점), 반면에 실제 응답은 다음일 것입니다:

\(\quad\displaystyle y_d=\alpha+\beta x_d +\varepsilon_d.  \,\)

점 추정(point estimate) \(\displaystyle \hat{y}_d\)는 평균 응답(mean response)이라고 불리고, \(y_d\)의 기댓값(expected value), \(\displaystyle E(y\mid x_d)\)의 추정입니다.

예측 구간은 대신 우리가 떨어질 \(y_d\)를 예상하는 구간을 제공합니다; 이것은 만약 실제 매개변수 αβ가 (오차 항 εi와 함께) 알려져 있으면 필요하지 않지만 만약 우리가 표본(sample)에서 추정하는 것이면, 우리는 절편과 기울기에 대한 추정 (\(\displaystyle \hat\alpha\)와 \(\displaystyle \hat\beta\))의 표준 오차(standard error)와 마찬가지로 그것들의 상관관계를 예측 구간을 계산하기 위해 사용할 수 있습니다.

회귀에서, Faraway (2002, p. 39)는 평균 응답의 예측을 위한 구간과 관찰된 응답의 예측을 위한 구간 사이의 구별을 만듭니다–이것은 본질적으로 위의 확장 인수에서 제곱근 내에 단위 항의 포함 여부에 영향을 미칩니다; 자세한 내용에 대해 Faraway (2002)를 참조하십시오.

Bayesian statistics

예측 추론의 지지자, 시모어 가이저(Seymour Geisser)베이즈 통계(Bayesian statistics)의 예측 응용을 제공합니다.

베이즈 통계에서, 우리는 확률 변수의 이후 확률(posterior probability)로부터 (베이즈) 예측 구간을 신용 구간(credible interval)으로 계산할 수 있습니다. 이론적 연구에서, 신용 구간은 종종 미래 사건의 예측을 위해 계산되지 않고 매개변수의 추론을 위해 – 즉, 변수 자체의 결과에 대한 것이 아니라 매개변수의 신용 구간에 대해 계산됩니다. 어쨌든, 특히 응용이 아직 관찰되지 않은 경우의 가능한 극단값과 관련된 곳에서, 그러한 값에 대해 신용 구간이 실질적으로 중요할 수 있습니다.

References

Further reading