📊 통계/🐠 회귀분석

제3장 다중선형회귀

꽁광부 2024. 10. 4. 22:23
3.1 소개

 

 

이 장에서는 여러 개의 설명변수를 가지는 다중선형회귀모형을 다룬다.

 

 

 

 

 

3.2 데이터와 모형에 대한 서술

 

 

 

다중선형회귀는 단순선형회귀의 확장(일반화)이다. 모든 단순회귀의 결과들은 예측변수의 수가 p = 1인 경우의 다중회귀를 이용하여 얻을 수 있기 때문에, 단순회귀를 다중회귀의 특별한 경우로 생각할 수 있다.

 

 

 

 

 

3.3 사례: 감독자 직무수행능력 데이터

 

 

다음의 데이터는 어떤 대형금융기관에 근무하는 사무직원들에게 그의 감독자에 대한 만족도를 질문하는 설문조사를 진행한 것이다. 문항은 총 6개이며, 응답은 각 문항에 대한 만족도에 따라 1에서 5까지의 값을 가진다. 이때 각 문항에 대하여 그 값이 {1, 2}에 해당하면 '만족한 응답'으로, {3, 4, 5}에 해당하면 '불만족한 응답'으로 이분하여 범주화시켰다.

 

Y와 여섯 개의 설명변수를 관계시키는 다음과 같은 선형모형을 가정하자.

 

 

R에 데이터를 저장한다.

 

 

 

 

 

 

 

3.4 모수 추정

 

 

이용 가능한 데이터에 근거하여 모수들을 추정하기 위해, 단순회귀의 경우와 마찬가지로 최소제곱법이 사용된다. 즉, 오차의 제곱합을 최소화하는 것이다. 오차는 다음과 같이 표현될 수 있다.

 

 

이러한 오차들의 제곱합은 다음과 같다.

 

 

이 방정식 체계는 해를 구할 수 있고 유일한 해를 가지는 것으로 가정된다.

 

 

추정된 회귀계수를 이용하여 적합된 최소제곱 회귀방정식을 다음과 같이 쓸 수 있다.

 

 

주어진 데이터의 각 관측개체에 대하여 적합값을 계산할 수 있으며, 대응되는 보통의 최소제곱잔차는 다음과 같이 주어진다.

 

 

오차분산의 불편추정치는 다음과 같이 주어진다.

 

 

오차분산에 대한 식의 분모에 있는 (n - p - 1)은 통계량 SSE의 자유도라고 불린다. 이것은 관측개체의 수에서 추정된 회귀계수의 수를 뺀 것과 같다.

 

어떤 가정들이 만족된다면 최소제곱추정치는 여러 가지 바람직한 성질들을 가진다 (제4장). 최소제곱추정치의 성질들에 근거하여 연구자는 적절한 통계적 추론(신뢰구간의 추정, 가설검정, 적합도검정 등)을 전개할 수 있다.

 

 

 

 

 

3.5 회귀계수에 대한 해석

 

 

다중회귀방정식에서 회귀계수에 대한 해석은 자주 혼동되는 것 중 하나이다. 단순회귀방정식은 직선을 표현하는 반면, 다중회귀방정식은 평면(예측변수가 두 개인 경우) 혹은 초평면(예측변수가 두 개보다 많은 경우)을 표현한다.

 

단순회귀에서와 마찬가지로 다중회귀에서 상수항 계수라고 불리는 beta 0는 X1 = ... = Xp = 0일 때 Y의 기댓값이다.

 

회귀계수 beta j들은 몇 가지의 해석을 가진다. Xj를 제외한 나머지 모든 예측변수들을 상수로 고정시킨 상태에서 Xj의 한 단위 증가에 따른 Y의 증분으로 해석될 수 있다. 변화의 크기는 다른 예측변수들이 어떤 값으로 고정되어 있는지에 의존하지 않으나, 현실에선 예측변수들이 서로 밀접하게 연관되어 있어 다른 변수들이 변화할 때 어떤 변수들을 상수로 고정시키는 것이 가능하지 않은 경우도 있다.

 

회귀계수 beta j 는 편회귀계수로 불리기도 하는데, 그 이유는 beta j가 다른 예측변수들에 의하여 반응변수 Y가 조정된 후에 Y에 대한 Xj의 공헌도를 나타내기 때문이다. 이러한 해석은 다중회귀방정식이 일련의 단순회귀방정식으로부터 얻어질 수 있다는 사실을 고려할 때 쉽게 이해될 수 있다.

 

 

따라서, 예측변수들이 서로 무상관uncorrelated이 아니라면 단순과 다중회귀계수가 같지 않다는 것을 알 수 있다. 현실 데이터에서 예측변수들이 무상관인 경우는 드물다. 다만 실험계획을 사용해 도출된 표본에서는 설명변수들이 무상관인 경우가 있을 수 있고, 그 표본에서의 단순과 다중회귀계수는 같게 된다.

 

 

 

 

 

3.6 중심화와 척도화

 

 

회귀식에서 회귀계수의 크기는 변수의 측정단위에 영향을 받게 되므로, 이를 막으려면 회귀모형을 적합하기 전에 먼저 변수들에 대해 중심화척도화를 해두어야 한다.

 

일반적으로 사용되는 회귀모형의 형태는 절편을 포함한다. 이때는 변수에 대한 중심화와 척도화가 모두 필요하다. 그러나 절편이 없는 모형을 적합할 경우, 변수의 척도화만 필요하다.

 

 

 

1. 절편 모형에서 중심화와 척도화

 

중심화centering 변수는 각 관측값에서 모든 관측값의 평균을 빼는 것으로 얻어진다. 이때, 중심화된 변수의 평균은 0이다.

 

중심화된 변수는 척도화 또한 가능하다. 두 가지 형태의 척도화scaling가 통상적으로 가능한데, 단위길이 척도화unit length scaling와 표준화standardizing이다.

 

 

(1) 단위길이 척도화

 

 

이때 변수 Z는 평균이 0이고 길이 1을 갖는다. 이러한 형태의 척도화를 단위길이 척도화라고 하며, 다음의 성질을 갖는다.

 

 

 

(2) 표준화

 

 

이때 표준화된 변수 Y와 X는 평균이 0이고 표준편차 1을 갖는다. 상관계수는 데이터의 중심화 또는 척도화에 영향을 받지 않기 때문에, 상관계수를 계산할 때 단위길이 척도화나 표준화 모두 편리하게 이용될 수 있다.

 

 

 

2. 절편이 없는 모형에서의 척도화

 

절편이 없는 모형을 적합시키는 경우, 중심화는 모형에 상수항을 포함시키는 효과를 가지기 때문에 데이터에 대한 중심화를 하지 않는다. 이는 다음을 통해서 확인할 수 있다.

 

 

따라서 절편이 없는 모형을 다룰 때는 데이터를 척도화하는 것만 필요하다. 척도화된 변수는 다음과 같이 정의된다.

 

 

위의 척도화된 변수는 길이 1을 가지지만 평균이 0일 필요는 없다. 원변수의 평균이 0이 아니면,  단위길이 척도화 경우의 상관계수 식을 만족하지도 않는다.

 

 

중심화 및 척도화는 일반성을 잃지 않고 수행될 수 있는데, 이는 변환된 변수의 회귀계수는 원변수로 환원이 가능하기 때문이다. 예를 들어, 중심화 데이터에 회귀 모형을 적합하였다면, 추정된 회귀계수 beta들은 원변수에 대한 회귀계수와 동일하다. 중심화 데이터를 사용하면 상수항의 추정치는 항상 0이 되고, 절편을 가진 모형에서의 상수항 추정치는 다음의 식으로부터 얻을 수 있다.

 

 

그러나 척도화는 회귀계수 추정치를 변화시킨다. 예를 들어, 원 데이터를 사용한 추정치와 표준화 데이터를 사용한 추정치 사이의 관계는 다음과 같다.

 

 

이때 beta j는 원 데이터를 사용했을 때의 j번째 회귀계수이고, theta j는 표준화 데이터를 사용했을 때의 것이다.

 

표준화된 변수를 이용하여 얻어진 회귀계수를 베타 계수beta coefficient라고 부른다. 베타 계수는 예측변수가 단위 표준편차 크기만큼 변화될 때의 주변효과marginal effect, 즉 표준화 단위 변화량을 나타낸다.

 

 

 

 

 

3.7 최소제곱추정량의 성질

 

 

표준적인 회귀모형의 가정 하에서, 최소제곱추정량은 다음과 같은 성질들을 가진다.

 

 

위의 결과들을 이용하여 개별 회귀모수들에 대한 다양한 가설들을 검정할 수 있으며 신뢰구간을 구축할 수 있다.

 

 

 

 

 

3.8 다중상관계수

 

 

주어진 데이터에 선형모형을 적합한 후에 고려해야 할 문제는 모형의 적합 정도에 관한 것이다.

 

Y와 예측변수들의 집합 (X1, ..., Xp) 사이의 선형관계에 대한 강도는 Y와 Y hat의 산점도를 탐색함으로써 평가될 수 있는데, Y와 Y hat의 상관계수는 다음과 같이 주어진다.

 

 

결정계수 R^2는 다음과 같이 주어진다.

 

 

따라서 R^2은 반응변수 Y의 전체 변이variation 중에서 (X1, ..., Xp) 에 의하여 설명되는 비율로 해석될 수 있다. 다중회귀에서 R = sqrt(R^2)은 다중상관계수multiple correlation coefficient라고 불리는데, 이는 다중상관계수가 Y와 (X1, ..., Xp) 사이의 관계의 정도를 측정하기 때문이다.

 

 

 

 

앞선 감독자 직무수행능력 데이터에 대한 R^2 값은 0.73이다. 이것은 직무수행에 대한 전반적인 평가의 전체 변이 중 73%가 여섯 개의 변수들에 의하여 설명된다는 것을 의미한다.

 

모형이 데이터에 잘 적합된다면 R^2의 값은 1에 가까울 것이다. 만약 Y와 (X1, ..., Xp) 사이에 선형관계가 없다면 관측개체 yi에 대한 최량의 예측값은 표본평균이 되고, R^2 값은 0에 가까울 것이다.

 

R^2의 값은 주어진 데이터에 선형모형이 잘 적합되었는지를 평가하는 요약 측도이나, 큰 R^2 값이 반드시 모형이 데이터에 잘 적합된다는 것을 의미하는 것은 아니다.

 

 

R^2와 관련된 값으로서 수정결정계수adjusted R-squared도 적합도를 평가하기 위해 사용될 수 있다. 수정결정계수는 다음과 같이 정의된다.

 

 

이에 대해 다음의 관계가 성립한다.

 

 

수정결정계수는 종종 예측변수들의 개수가 서로 다른 모형들을 비교하기 위해 사용된다. 모형 안에 있는 예측변수들의 수가 다르다는 것을 조정adjust하기 때문이다. 다만 수정결정계수는 R^2와는 다르게, Y의 전체 변이 중에서 예측변수들에 의하여 설명되는 비율로 해석될 수는 없다.

 

 

 

 

 

3.9 개별 회귀계수들에 대한 추론

 

 

최소제곱추정량의 성질들을 이용하여 회귀계수들에 대한 통계적 추론을 수행할 수 있다.

 

 

이는 H0 하에서 자유도가 (n - p - 1)인 t-분포를 따른다.

 

 

결론적으로 위가 성립하면 유의수준 alpha 하에서 귀무가설 H0가 기각된다.

 

 

위의 귀무가설을 기각할 경우, beta j는 0이 아니다. 즉, 예측변수 Xj는 다른 모든 예측변수들에 대하여 조정된 후 반응변수 Y에 대하여 통계적으로 유의한 예측변수이다.

 

 

 

통계적 추론의 다른 형태는 신뢰구간의 구축이다. 신뢰계수 (1 - alpha)를 가진 beta j에 대한 신뢰한계는 다음과 같이 주어진다.

 

 

이는 개별 계수 beta j에 대한 것이다. 모든 회귀계수들의 결합 신뢰영역은 다른 식으로 주어진다.

 

 

 

앞선 감독자 직무수행능력 데이터에 대해 적합된 회귀방정식은 다음과 같다. (코드 참고)

 

 

통계 패키지 결과에서, 설명변수 X1에 해당하는 회귀계수만이 유의수준 5% 하에서 0과 유의적으로 다른 것으로 나타나고 있다. 그리고 설명변수 X3에 해당하는 회귀계수는 유의수준 10% 하에서 0과 유의적으로 다른 것으로 나타나고 있다. 나머지 변수들은 유의하지 않은 t-검정 값을 가지고 있다.

 

이때, 상수항 또한 통계적으로 유의하지 않은 값을 가진다. 그러나 일반적으로 회귀모형에서는 상수항이 통계적으로 유의하지 않더라도, 강한 이론적 근거가 존재하지 않는다면 이를 모형에 포함시킨다. 상수항은 반응변수의 기본적인 수준을 나타내기 때문이다.

 

 

 

 

 

3.10 선형모형에서의 가설검정

 

 

개별적인 회귀계수 beta에 대한 검정 이외에, 여러 가지 다른 형태의 가설들이 선형모형의 분석과 관련하여 고려될 수 있다. 통상적으로 고려될 수 있는 가설들은 다음과 같다.

 

1) 예측변수의 모든 회귀계수들이 0이다.

2) 회귀계수들 중 일부분이 0이다.

3) 회귀계수들 중 일부분이 서로 같은 값을 가진다.

4) 회귀모수들이 특정한 제약조건을 만족한다.

 

 

모든 회귀계수들을 포함한 원래의 다중선형회귀모형을 완전모형full model 이라고 한다. 이때 귀무가설에 가정된 내용들을 완전모형에 대입해서 얻은 모형을 축소모형reduced model 이라고 한다. 만약 주어진 데이터에 대하여 축소모형에서의 적합도가 완전모형의 그것과 거의 같다면, 축소모형을 규정하는 귀무가설이 기각되지 않는다.

 

 

완전모형에는 (p + 1) 개의 추정될 회귀모수가 있고, 축소모형에는 k개의 구별되는 모수들이 있다고 하자. 이때, 항상 SSE(RM) >= SSE(FM)을 만족하므로, 차이 SSE(RM) - SSE(FM)은 축소모형을 적합함으로써 증가하는 잔차 제곱합을 나타낸다. 만약 이 차이가 크다면 축소모형은 적절하지 않다.

 

 

이것은 H0 하에서 F-분포를 따르기 때문에, 이에 기초한 검정을 F-검정이라고 한다. 이 검정통계량은 표준적인 통계분포를 가지게 하기 위하여, 또한 두 모형에 포함되어 있는 모수들의 개수가 가지는 효과를 상쇄시키기 위하여 각각을 그들의 자유도로 나눈 것이다.

 

 

 

 

1. 모든 회귀계수들이 0인가에 대한 검정

 

고려하고 있는 모든 예측변수들이 설명력이 없으며, 따라서 모든 회귀계수들이 0이라는 가설을 검정하는 경우를 생각해 보자. 이 경우 축소모형과 완전모형은 다음과 같게 된다.

 

 

완전모형의 잔차제곱합은 SSE(FM) = SSE이다. 축소모형에서 beta 0의 최소제곱추정치는 y bar이므로, 축소모형의 잔차제곱합은 SSE(RM) = SST이다. 또한, 완전모형은 (p + 1) 개의 회귀모수들을, 축소모형은 한 개 (k = 1)의 회귀모수를 가지고 있으므로 F-검정통계량은 다음과 같다.

 

 

여기에서 MSR은 평균회귀제곱이고 MSE는 평균오차제곱이다.

 

 

모든 모집단 회귀계수가 0이라는 가설은 모집단 다중상관계수가 0이라는 가설과 동일하므로, 표본 다중상관계수를 이용하여 다음과 같이 표현할 수도 있다.

 

 

이에 대한 검정은 위의 R 코드에서 진행하였다. p-value가 0에 가까운 값을 가져 귀무가설이 기각되므로, 모든 예측변수들에 대한 회귀계수 beta가 동시에 0은 아니라고 할 수 있다.

 

이때, 개별적으로는 어떤 변수도 유의한 설명력을 가지지 않지만 수집된 변수들의 전체 집합은 반응변수의 변이 중 유의한 부분을 설명한다는 분석 결과를 얻는 경우도 있다. 이런 경우는 몇 개의 설명변수들이 서로 높은 상관관계를 가지는 소위 공선성collinearity의 문제로 인해 야기되는 문제일 가능성이 있는데, 뒤에서 다루도록 한다.

 

 

 

2. 회귀계수들의 부분집합이 0인가에 대한 검정

 

모든 변수를 모형에 적합하지 않고도 Y의 변이를 적절히 설명할 수 있는지를 검토해 보자. 이는 첫째로 중요한 변수들을 그렇지 못한 것들로부터 격리시킬 수 있으며, 둘째로 연구과제에 대한 간단한 설명을 가능하게 함으로써 이해를 도울 수 있다.

 

어떤 특정 설명변수가 모형에 꼭 포함되어야 한다는 이론적 근거가 없는 경우, 통상적인 t-검정을 이용해 예비적 탐색을 할 수도 있다. 이러한 관점에서, 앞선 감독자의 직무수행 예제에서 유의한 t-검정을 나타낸 X1과 X3을 선택해 모형을 적합해보기로 하자.

 

이 경우 축소모형과 그에 대응되는 가설은 다음과 같다.

 

 

 

 

위의 분석 결과를 통해, 귀무가설이 기각되지 않음을 알 수 있다. 따라서, 설명변수 X1과 X3은 모든 설명변수들을 사용한 경우에 못지않게 Y의 변이를 적절히 설명하고 있으므로, 설명변수 X2, X4, X5, X6를 회귀모형에서 제외하는 것은 설명력에 크게 나쁜 영향을 끼치지 않는다고 할 수 있다.

 

위의 가설을 검정하기 위해 다음과 같은 F-검정통계량을 사용할 수도 있다.

 

 

또한, 축소모형이 완전모형보다 오직 하나의 계수를 덜 가지고 있을 경우, 이때의 검정통계량은 다음의 t-검정과 동일하다.

 

 

 

 

 

3. 회귀계수들의 동일성에 대한 검정

 

앞선 감독자의 직무수행 예제로부터, X2, X4, X5, X6에 대한 회귀계수가 0이라는 조건 하에서 설명변수 X1과 X3에 대한 회귀계수의 동일성 여부에 관한 검정을 예로 들어본다. 이때 검정대상이 되는 귀무가설은 다음과 같다.

 

 

제약조건 하에서의 완전모형과 축소모형은 다음과 같다.

 

 

위의 축소모형은 새 변수 W = X1 + X3를 사용하여 모형을 적합시키는 것과 같다.

 

 

 

 

따라서 예측모형은 Y hat = 9.988 + 0.444W로 얻어진다.

 

 

위의 분석 결과를 통해, 귀무가설이 기각되지 않음을 알 수 있다. 따라서 X1과 X3은 Y에 대해 같은 크기의 증분효과를 가지고 있음을 알 수 있다. 이러한 검정결과는 다음과 같은 t-검정을 사용하여 시행할 수도 있다.

 

 

위와 같이 단계적으로 모형을 구축하지 않고, 다음의 귀무가설을 동시에 검정하는 방법도 고려해 볼 수 있다.

 

 

 

이에 대한 결과는 앞에서와 마찬가지로 유의하지 않다. 그러나 첫 번째 검정법은 회귀계수의 동일성으로부터 이탈여부의 탐색이란 점에서 두 번째 검정보다 더 민감한 것으로 보인다.

 

 

 

4. 제약조건 하에서 회귀계수에 대한 추정과 검정

 

회귀방정식을 적합할 때 회귀계수의 값에 제약조건을 부여하는 것이 바람직한 경우가 있다. 많은 경우 이런 식의 제약조건은 설명변수들이 가지는 속성에 따른 이론적인 또는 물리적인 관계로부터 유래한다.

 

다음의 가설검정을 고려해 보자.

 

 

귀무가설 하에서의 축소모형을 정리하면 다음과 같다.

 

 

 

 

 

(보충)

 

 

 

 

위의 분석 결과를 통해, 귀무가설이 기각되지 않음을 알 수 있다. 따라서 주어진 데이터에 대하여 X1과 X3의 편회귀계수의 합은 1이며, 앞서 두 회귀계수가 같다는 가설을 확인하였으므로, 이는 두 회귀계수가 모두 0.5 임을 암시한다고 말할 수도 있다.

 

 

주어진 데이터를 적절히 설명하는 모형은 여러 개가 있을 수 있음이 명백하다. 이런 경우에는 가능한 모든 모형이 고려되어야 하며, 최종적으로 선택되지 않은 모형이라고 할지라도 혹시 간과될지 모를 데이터의 중요한 측면을 포착할 수 있다.

 

하나 또는 몇 개의 설명변수들은 그들의 회귀계수가 통계적으로 별로 유의하지 않더라도 그 변수가 가지는 이론적인 중요성 때문에 회귀식에 그냥 남겨놓을 수 있다. 이런 과정을 통해 모형에 남게 되는 설명변수들은 근본적으로 데이터를 설명하는 데 그 스스로 의미가 있어야 한다.

 

 

 

 

 

3.11 예측

 

 

적합된 다중회귀식은 예측변수들에 대한 하나의 관측값에 대응되는 반응변수 y의 값을 예측하는 데 활용될 수 있다.

 

예측값 y0 hat과 그에 대한 신뢰한계는 다음과 같다.

 

 

평균반응 mu0에 대한 예측값과 그에 대한 신뢰한계는 다음과 같다.

 

 

 

 

 

 

 

3.12 요약

 

 

여기에서 강조되어야 할 점은 특정 검정절차를 시도하기에 앞서 모형에 대한 가정의 적절성이 꼭 검토되어야 한다는 것이다. 이를 위해 잔차플롯이 유용하게 활용될 수 있다.

 

어떤 검정절차든 그 절차가 기초하고 있는 모형에서의 가정이 충족되지 않으면 타당하지 않다. 통계적 검정을 바탕으로 새로운 모형이 선택되었다면, 분석을 마치기 전에 새로운 모형에서 나온 잔차는 반드시 다시 한번 검토되어야 한다.

 


 

'📊 통계 > 🐠 회귀분석' 카테고리의 다른 글

제5장 질적 예측변수  (1) 2025.01.31
제4장 회귀진단  (0) 2025.01.19
제2장 단순선형회귀  (0) 2024.09.23
제1장 서론  (0) 2024.09.09