📊 통계/🐠 회귀분석

제2장 단순선형회귀

꽁광부 2024. 9. 23. 13:50
2.1 소개

 

 

반응변수 Y와 하나의 예측변수 X 사이의 관계를 연구하는 간단한 경우를 가지고 시작한다.

 

 

 

 

 

2.2 공분산과 상관계수

 

 

Y와 X 간 연관관계의 방향direction과 강도strength를 측정하고자 한다. 공분산covariance과 상관계수correlation coefficient로 알려진 두 개의 측도들은 아래와 같이 전개된다.

 

 

만약 Y와 X의 선형관계가 양이면(X가 증가함에 따라서 Y도 증가하면), 1 사분면과 3 사분면에 더 많은 점들이 있게 되어 편차곱의 합계는 양의 값을 가질 것이고, 반대로 Y와 X의 선형관계가 음이면(X가 증가함에 따라서 Y가 감소하면), 2 사분면과 4 사분면에 더 많은 점들이 있게 되어 편차곱의 합계는 음의 값을 가질 것이다.

 

 

Cov(Y, X) > 0 이면, Y와 X 사이에 양의 선형관계가 있다고 볼 수 있다. 반면에, Cov(Y, X) < 0 이면, Y와 X 사이에 음의 선형관계가 있다고 볼 수 있다. 그러나 공분산은 그러한 관계의 강도가 얼마나 되는지에 대한 정보를 제공하지는 않는다. 왜냐하면 공분산은 측정단위의 변화에 영향을 받기 때문이다.

 

 

따라서 이러한 공분산의 단점을 피하기 위하여, 데이터를 먼저 표준화standardization하는 방법을 생각해 볼 수 있다.

 

 

 

따라서 상관관계는 두 변수들의 표준편차에 대한 공분산의 비로 해석될 수 있다. 이때, 상관계수는 대칭적이므로 Corr(Y, X) = Corr(X, Y)가 성립한다.

 

공분산과 달리, 상관계수는 척도에 불변한다scale invariant. 또한, 상관계수는 [-1, 1]의 범위를 가진다. 이 성질은 Y와 X에 대한 방향과 강도를 측정함에 있어서 상관계수를 유용하게 한다. 상관계수가 1 또는 -1에 가까울수록 Y와 X의 관계는 더 강하다. 또, 상관계수의 부호는 Y와 X에 대한 양/음의 관계에 대한 방향을 나타낸다.

 

 

그러나 상관계수가 0이라고 해서 반드시 Y와 X 사이에 관계가 없음을 의미하는 것은 아니다. 상관계수는 오직 선형 관계를 측정하기 때문에, 0에 가까운 상관계수는 그들이 선형적으로 관련되어 있지 않음을 나타낸다. 즉, Y와 X가 비선형적으로 관련되어 있을 떄에도 상관계수는 0의 값을 가질 수 있다.

 

더 나아가, 많은 다른 요약통계량들과 마찬가지로, 상관계수는 데이터에 있는 하나 또는 몇 개의 특이값에 영향을 받을 수 있다. 요약통계량에만 의존하는 분석으로는 패턴에 있어서의 차이를 검출할 수 없을 것이다. 따라서, 상관계수의 수치값을 해석하기 전에 Y대 X의 산점도를 살펴보는 것은 매우 중요하다.

 

 

 

 

 

2.3 사례: 컴퓨터 수리시간 데이터

 

 

R에서 다음과 같은 코드를 활용한다.

 

 

 

 

plot으로 표현된 Y와 X 사이의 강한 선형관계와, Corr(Y, X) = 0.996이라는 높은 값이 일치함을 확인할 수 있다. 따라서, 수리 시간과 수리될 부품 수 사이에는 강한 양의 관계가 있다고 결론지을 수 있다.

 

상관계수는 선형관계의 방향과 강도를 측정하기에는 유용한 값이지만, 예측의 목적으로 사용되기는 어렵다. 그러나 회귀분석은 반응변수와 예측변수 사이의 관계에 대한 방향과 예측을 측정하는 것뿐만 아니라, 관계를 수치적으로 묘사하는 모형을 가정하기 때문에 상관분석의 매력적인 확장이다.

 

 

 

 

 

2.4 단순선형회귀모형

 

 

 

상관계수는 Corr(Y, X)가 Corr(X, Y)와 같다는 점에서 대칭적이다. 즉, 변수 X와 Y는 동등하게 중요하다. 반면 회귀분석에서는 반응변수 Y가 일차적으로 중요하다. 예측변수 X의 중요성은 그 자신의 본질이 아니라 반응변수 Y의 변이에 대한 설명력에 달려 있기 때문이다.

 

예를 들어, 앞선 컴퓨터 수리시간 예제의 경우 다음과 같은 선형모형을 가정할 수 있다.

 

 

 

 

 

 

 

2.5 모수에 대한 추정

 

 

이용가능한 데이터에 근거하여, 우리는 모수를 추정하기를 원한다. 이는 반응변수 대 예측변수의 산점도에 있는 점들을 가장 잘 적합best fit 혹은 표현하는 직선을 찾는 것과 동일하다. 통상적으로 최소제곱법least sqaures method을 이용하여 모수를 추정하는데, 이 방법은 각 점으로부터 구하고자 하는 최적 직선까지의 수직거리의 제곱합을 최소로 하는 직선의 방정식을 제공한다.

 

 

이 오차들은 다음과 같이 재표현하여 얻을 수 있다.

 

 

이러한 거리들의 제곱합은 다음과 같이 쓸 수 있다.

 

 

거리들의 제곱합을 최소로 하는 beta hat 값은 다음과 같이 주어진다.

 

 

이는 각각의 모수에 대한 최소제곱추정치이며, 각 점으로부터 수직거리의 제곱합을 최소로 하는 직선에 대한 절편과 기울기이다. 따라서 이 직선을 최소제곱회귀선least sqaures regression line이라고 한다. 수직거리의 제곱합을 최소로 하는 직선은 항상 찾을 수 있으므로, 최소제곱회귀선은 항상 존재한다. 최소제곱회귀선은 다음과 같다.

 

 

따라서 주어진 데이터에 있는 각 관측개체들에 대하여 적합값fitted value을 계산할 수 있다.

 

 

i번째 관측개체에 대응되는 수직거리는 다음과 같다.

 

 

이들 수직거리는 보통의 최소제곱잔차least squares residual라고 불린다. 잔차의 성질 중 하나는 그들의 합이 0이라는 것이다.

 

 

 

앞선 컴퓨터 수리시간 데이터를 이용하여 다음을 얻을 수 있다.

 

 

 

 

 

따라서 최소제곱회귀선의 방정식은 다음과 같다.

 

 

상수항은 각 수리에서 필요한 기계나 장비를 가동하는 등의 준비시간이 약 4분이 걸리는 것을 의미한다. 변수 Units에 대한 계수는 수리부품이 하나 늘어날 때 필요한 수리시간이 약 16분(15.509분) 늘어난다는 것을 의미한다.

 

만약 4개의 고장난 부품을 수리하는 데 걸리는 예측시간을 구하고 싶다면, 회귀선의 방정식에 Units = 4를 대입함으로써 얻을 수 있다. 즉, 예측값은 4.162 + 15.509 × 4 = 66.2분이다. 이는 주어진 데이터에서 Units가 4인 경우의 관측개체들의 수리시간인 64, 74에 대응되므로, 66.2는 두 관측개체에 대한 적합값이다. 이때 두 관측값은 동일한 적합값에 대해 서로 다른 잔차를 가진다.

 

 

 

 

지금까지 우리는 Y와 X가 선형적 관계를 가지고 있다는 하나의 가정, 즉 선형성linearity을 가정하고 분석을 진행하였다. 이것은 단지 가정일 뿐이므로, 분석의 초기 단계에서 이 가정의 타당성이 검토되어야 한다. 반응변수 대 예측변수의 산점도를 조사하고, 최소제곱회귀선을 추가해 직선의 관계를 잘 나타내는지 확인함으로써 선형성 가정이 적절하다는 결론과 함께 분석을 계속 진행할 수 있을 것이다.

 

만약 비선형 패턴이 발견된다면, 선형성을 가정한 것이 타당하다고 보기 어려우므로 재표현 또는 변환을 수행해야 할 필요성이 있다.

 

 

 

 

 

2.6 가설검정

 

 

Y에 대한 예측자로서 X의 유용성을 측정하는 보다 정식적인 방법은 회귀모수 beta에 대한 가설검정을 수행하는 것이다.

 

가설 beta = 0은 Y와 X 사이에 선형적인 관계가 없음을 의미한다. 이 가설에 대한 검정은 다음의 가정을 필요로 한다.

 

 

 

여기에서 SSE는 잔차들의 제곱합이다. 분모 (n - 2)는 SSE의 자유도degrees of freedom로 불린다. 이는 관측개체의 개수에서 추정된 회귀계수의 개수를 뺀 것과 같다.

 

위의 sigma hat 추정치로 sigma를 대치하면 최소제곱추정치의 분산에 대한 불편추정치를 얻는다.

 

 

 

어떤 추정량에 대한 표준편차standard deviation의 추정치는 그 추정치의 표준오차standard error로 불린다. 최소제곱추정치의 표준오차는 다음과 같다.

 

 

최소제곱추정치의 표본분포를 가지고 Y에 대한 예측자로서 X의 유용성을 평가하는 통계적 분석을 수행할 수 있다.

 

 

 

일반적으로 p-값은 회귀분석 결과의 일부로 제공된다. 귀무가설을 기각한다는 것은 통계적으로 beta 1이 0이 아니라는 것을 의미한다. 따라서 이 경우 예측변수 X는 반응변수 Y에 대하여 통계적으로 유의한 예측자이다.

 

 

 

다음의 세 가지 다른 가설들에 대한 검정을 다룬다.

 

 

앞선 컴퓨터 수리시간 데이터의 예를 고려하자. 가령, 관리담당부서에서 고장 난 부품을 하나 더 수리하는 데 12분 정도 걸릴 것으로 기대한다고 가정할 때, 적절한 귀무가설과 검정통계량은 다음과 같다.

 

 

이때, 검정통계량은 자유도 12를 가진다. 이 검정에 대한 임계값은 t(12, 0.025) = 2.18이다. t1 = 6.948 > 2.18이므로 결과는 매우 유의하며, 귀무가설을 기각할 수 있다. 따라서 관리담당부서에서 기대한 추가소요시간은 데이터에 의하여 지지되지 않으며, 그 기대치는 너무 낮게 책정된 것이다.

 

 

 

 

 

 

 

만약 Y와 X 사이에 선형관계가 존재하지 않는다면 beta 1 = 0이라는 것이 명백하다. 결론적으로, 두 통계적 검정은 가설을 검정하기 위한 통계량들이 다르게 보일지라도, 그것들이 수리적으로 동일하다는 것을 알 수 있다.

 

 

 

 

 

2.7 신뢰구간

 

 

 

위의 신뢰구간confidence interval은 일반적으로 다음과 같이 해석될 수 있다. 만약, 우리가 동일한 크기의 표본을 반복적으로 취하고, 각 표본에 대하여 계산된 기울기에 대한 95% 신뢰구간들을 구축한다면, 이 신뢰구간들의 95%가 기울기의 참값을 포함할 것으로 기대된다.

 

앞선 컴퓨터 수리시간 예제에서, beta 1에 대한 95% 신뢰구간은 다음과 같음을 볼 수 있다.

 

 

즉, 각 불량부품에 요구되는 추가 수리시간은 14분에서 17분 사이이다.

 

위의 신뢰한계confidence limit들은 모수 각각에 대한 신뢰구간을 독립적으로 구축할 경우에 대한 것이다. 이것은 두 모수에 대한 동시 신뢰영역이 직사각형의 형태라는 것을 의미하지는 않는다. 실제로, 동시 신뢰구간은 타원형의 형태이다.

 

 

 

 

 

2.8 예측

 

 

적합된 회귀방정식은 예측prediction을 위해 사용될 수 있다. 우리는 다음과 같은 두 가지 유형의 예측을 구별할 필요가 있다.

 

 

 

(1) 예측변수의 어떤 선택된 값 x0에 대응되는 반응변수 Y의 값에 대한 예측

 

이 경우에 대하여 예측값predicted value과 그 표준오차는 다음과 같다.

 

 

따라서 신뢰계수가 (1 - alpha)인 예측값에 대한 신뢰구간은 다음과 같이 주어진다. 이는 예측한계prediction of forecast limit로 불린다.

 

 

 

 

(2) X = x0으로 주어졌을 때 평균반응 mu0에 대한 추정

 

이 경우에 대하여 평균반응 mu0와 그 표준오차는 다음과 같이 추정된다. 이는 신뢰한계confidence limit로 불린다.

 

 

따라서 신뢰계수가 (1 - alpha)인 예측값에 대한 신뢰구간은 다음과 같이 주어진다.

 

 

이때, 평균반응 mu0의 점추정치는 예측된 반응 y0과 동일하다는 것을 알 수 있다. 그러나 mu0의 표준오차는 y0의 표준오차보다 작은데, X = x0일 때 평균반응을 추정하는 것보다는 하나의 관측개체를 예측하는 것에 더 많은 불확실성이 있을 것이기 때문이다.

 

 

예측의 표준오차는 주어진 예측변수의 값이 실제 관측개체들의 중심에서 멀어질수록 커지게 된다. 예측에는 두 가지 종류의 위험이 존재할 수 있는데, 그중 하나는 표준오차의 값이 지나치게 크기 때문에 발생하는 근본적인 예측값의 불확실성이다. 더 중요한 것은 관측값의 범위 밖에서는 추정된 선형관계가 더 이상 성립하지 않을 수 있다는 것이다.

 

예를 들어, 앞선 예제에서 Units = 25인 경우에 해당하는 수리시간을 예측하기 위하여 앞에서 구한 적합회귀식을 사용하는 것은 곤란하다는 것이다. 왜냐하면 이 값은 기존 관측값의 범위에서 너무 벗어나 있기 때문이다.

 

 

 

 

 

2.9 적합성의 측정

 

 

X에 Y를 관계시키는 선형모형을 적합한 후, 선형관계가 존재하는지를 아는 것뿐만 아니라 데이터에 모형이 얼마나 잘 적합되는지를 평가하는 데 관심을 두게 된다. 적합성quality of the fit은 다음과 같은 방법들을 이용하여 평가될 수 있다.

 

 

(1) 가설검정 시, 검정값의 크기(혹은 대응되는 p-값)는 Y와 X의 선형관계의 강도에 관한 정보를 제공한다. 근본적으로, 더 큰 t-값(절댓값) 혹은 더 작은 p-값은 Y와 X 사이의 선형관계가 더 강함을 의미한다. 이 방법은 앞에서 언급한 모든 가정들, 특히 error들의 정규성 가정을 요구한다.

 

 

(2) Y 대 X의 산점도와 그에 대응되는 상관계수의 값을 탐색함으로써 직접적으로 평가될 수 있다. 직선 주위에 점들이 더 밀집할수록(상관계수가 1 혹은 -1에 더 가까울수록) Y와 X 사이의 선형관계가 더 강함을 의미한다. 이 방법은 비정형적이고 주관적이지만 오직 선형성 가정만을 요구한다.

 

 

(3) Y 대 Y hat의 산점도를 탐색한다. 직선 주위에 점들이 더 밀집할수록 Y와 X 사이의 선형관계가 더 강함을 의미한다. 다음과 같은 Y와 Y hat 사이의 상관관계를 계산함으로써 이 그래프에 있는 선형관계의 강도를 측정할 수 있다.

 

 

Y대 X의 산점도와 Y 대 Y hat의 산점도는 동일한 패턴을 가지게 되며, 대응되는 두 상관계수 값은 다음과 같은 관계를 가진다.

 

 

단순선형회귀에서는 Y 대 Y hat의 산점도는 중복되는 정보이나, 다중회귀에서는 그렇지 않다.

 

 

(4) 선형모형에 포함된 모수들의 최소제곱추정치를 구한 후, 다음과 같은 값들을 계산할 수 있다.

 

 

여기에서 SST는 평균으로부터 Y 제곱편차의 총합total sum of squared deviations을 나타내고, SSR은 회귀에 기인한 제곱합sum of squares due to regression을 나타내며, SSE는 제곱잔차(오차)의 합계sum of squared residuals를 나타낸다.

 

단순과 다중회귀 모두에서 다음과 같은 기본적인 관계가 성립한다.

 

 

이 방정식은 다음과 같은 관측개체에 대한 묘사로부터 나타내어진다.

 

 

따라서 Y의 제곱편차인 SST는 Y에 대한 예측자로서 X의 질을 나타내는 SSR과 이 예측의 오차를 측정하는 SSE로 분할될 수 있다.

 

 

그러므로 적합도지수goodness-of-fit index R^2는 Y의 전체 변이 중에서 예측변수 X에 의하여 설명되는 비율로 해석될 수 있다. 추가적으로, 단순선형회귀에서는 다음을 보일 수 있다.

 

 

이때, SSE <= SST이므로 R^2는 [0, 1] 사이의 값을 가진다. 만약 R^2가 1에 가까우면 X가 Y의 변이 중 많은 부분을 설명한다는 것을 의미한다. 예측변수 X가 반응변수 Y를 얼마나 설명(결정)하는지에 관한 정보를 우리에게 제공하기 때문에, R^2는 결정계수coefficient of determination라고 부리기도 한다. R^2에 대한 이러한 해석은 다중회귀의 경우에도 그대로 적용될 수 있다.

 

앞선 컴퓨터 수리시간 데이터의 예에서, Corr(Y, X) = Corr(Y, Y hat) = 0.994임을 보일 수 있다. 따라서 R^2 = (0.994)^2 = 0.987이 성립한다. 또한 1 - SSE / SST = 1 - (348.848 / 27768.348) = 0987로도 구할 수 있다.

 

이는 반응변수 Minutes의 전체 변이 중 거의 99%가 예측변수 Units에 의하여 설명된다는 것을 나타낸다. 높은 R^2 값은 서비스 시간과 수리가 요구되는 부품의 수 사이에 강한 선형관계가 있음을 나타낸다.

 

 

이러한 통계적 절차의 타당성은 가정의 타당성에 의존하기 때문에, 분석으로부터 통계적 결론을 도출하기 전에 회귀모형에 대한 가정들이 검토되어야만 한다.

 

 

 

 

 

2.10 원점을 통과하는 회귀선

 

 

 

원점을 통과하는 다음과 같은 모형에 데이터를 적합시킬 필요가 있을 떄도 있다. 이 모형은 절편항이 없는 모형으로 불린다.

 

 

이 경우, 잔차들은 절편항을 가진 모형의 경우와는 달리 합계가 0일 필요는 없기 때문에 SSE의 자유도가 n - 1임을 유의해야 한다. 또한 절편항이 없는 모형에 대한 적절한 항등식은 y bar를 0으로 대체함으로써 얻어진다.

 

 

절편항을 가진 모형의 경우에는 R^2가 Y를 그의 평균으로 조정한 후에 Y의 전체 변이 중에서 예측변수 X에 의하여 설명되는 비율로 해석될 수 있다. 그러나 절편항이 없는 모형에 대해서는 그러한 조정이 없으므로, 어떤 경우에는 R^2가 음의 값이 될 수 있다. 그러므로 정확한 공식과 정확한 해석이 사용되어야만 한다.

 

 

절편항이 없는 모형은 그것이 주제(영역)와 관련된 이론 혹은 다른 물리적 상황에 부합되는 경우에만 사용되어야 한다. 어떤 모형을 사용할지 분명하지 않을 경우, 적합도는 두 모형에 의하여 산출되는 잔차제곱평균을 비교하여 평가되어야 한다.

 

 

 

 

 

2.11 사소한 회귀모형

 

 

예측변수를 가지지 않는 회귀방정식으로서, 일표본 t-검정과 대응 이표본 t-검정의 상황이 선형회귀모형의 특별한 경우로서 다루어질 수 있다.

 


 

'📊 통계 > 🐠 회귀분석' 카테고리의 다른 글

제5장 질적 예측변수  (1) 2025.01.31
제4장 회귀진단  (0) 2025.01.19
제3장 다중선형회귀  (1) 2024.10.04
제1장 서론  (0) 2024.09.09