4.1 소개
앞서 언급한 분포이론, 신뢰구간, 가설검정 등은 표준적인 회귀의 가정들이 만족될 때만 유효하고 의미를 가질 수 있다. 이들 가정이 위반된다면, 이전에 언급된 표준적인 결과들은 유효하지 않으며 결과의 응용이 심각한 오류를 야기할 수도 있다. 이 장은 엄격한 수치적 규칙들을 적용하는 것보다도, 그래프적인 방법에 의존해 이러한 가정들을 검토하는 방법을 제시한다.
4.2 회귀분석의 표준적인 가정들
제2장과 제3장에서 제시된 최소제곱추정량과 통계분석들은 다음과 같은 가정들에 근거한 것이다.

이것은 선형성linearity 가정이라고 불린다. 단순회귀에서는 Y 대 X의 산점도가 선형적인지를 봄으로써 쉽게 확인할 수 있다. 다중회귀에서는 데이터의 고차원성 때문에 선형성을 검토하는 것이 쉽지 않으나, 이에 사용될 수 있는 그래프들을 소개할 것이다.
선형성 가정이 만족되지 않는다면 종종 데이터에 대한 변환을 통해 선형성을 달성할 수 있다.


예측변수에 대한 위의 가정들 중 첫 두 개는 실제로는 평가될 수 없다. 따라서 이들은 분석에 있어서 중요한 고려 사항은 아니나, 회귀 결과의 해석에 영향을 준다.

최소제곱법의 특징 중 하나는 기본 가정에 대한 사소한 위반이 분석으로부터 도출된 추론이나 결론을 무효화할 만큼 큰 영향을 주지는 않는다는 것이다. 그러나 모형의 가정에 대한 큰 위반은 결론을 심각하게 왜곡시킨다. 따라서 그래프를 통해 잔차의 구조와 데이터의 패턴을 조사하는 것은 매우 중요하다.
4.3 다양한 유형의 잔차들
회귀분석에 있어서 모형이 가지는 가능한 결함을 찾아내는 데 가장 간단하고 효과적인 방법은 잔차플롯을 살펴보는 것이다. 잔차플롯은 표준적인 가정들에 대한 하나 이상의 위반이 존재할 경우 그것들을 나타내 준다. 더욱이, 분석이 요약통계량에만 근거할 경우 간과할지도 모를 데이터의 중요한 구조와 정보들을 잔차분석을 통해 발견할 수도 있다.
적합값은 다음과 같은 형태로도 표현될 수 있다.

여기에서 pij들은 예측변수들의 값에만 의존하는 값이다. 단순회귀에서는 pij가 다음과 같이 주어진다.

다중회귀에서 pij는 모자행렬hat matrix 또는 사영행렬projection matrix로 알려진 행렬의 원소이다.
i = j일 때, pii는 사영행렬 P의 i번째 대각원소이다. 단순회귀에서는 다음과 같이 나타낸다.

이는 i번째 관측개체에 대한 지레값leverage value 으로 불린다. 위의 적합값 식에서 확인할 수 있듯이, 적합값은 Y의 모든 관측값들의 가중합이며, pii는 i번째 적합값 yi hat을 결정함에 있어서 yi에 부여되는 가중치(지레)이기 때문이다. 따라서 n개의 지레값이 존재하며, 그들은 p11, p22, ..., pnn과 같이 정의된다.
앞서 언급한 가정들이 만족된다면 보통의 잔차 ei들의 합은 0이 될 것이다. 그러나 잔차들은 동일한 분산을 가지지 않는다.

왜냐하면 ei의 분산은 위의 식과 같고, xi1, xi2, ..., xip에 의존하기 때문이다. 이 문제를 극복하기 위해 i번째 잔차 ei를 그의 표준편차로 나누어 표준화하면 다음을 얻는다.

이것은 평균 0과 표준편차 1을 가지기 때문에 i번째 표준화잔차standardized residual 라고 불린다. 표준화잔차는 알려지지 않은 epsilon의 표준편차 sigma에 의존한다. sigma^2의 불편추정치는 다음과 같이 주어진다.

또 다른 불편추정치는 다음과 같이 주어진다.

여기에서 SSE(i)는 i번째 관측개체를 제외한 (n - 1) 개의 관측개체들에 모형을 적합하였을 때 얻은 잔차제곱합이다. 위 두 추정치는 모두 sigma^2의 불편추정량이다.

위의 잔차는 내적 표준화잔차internally studentized residual 라고 불리며, 아래의 잔차는 ei가 sigma hat(i)에 포함되어 있지 않기 때문에 외적 표준화잔차externally studentized residual 라고 불린다.
표준화잔차들은 합계가 0은 아니지만 동일한 분산을 가진다. 외적 표준화잔차는 자유도 (n - p - 2)를 가진 t-분포에 따르지만 내적 표준화잔차는 그렇지 않다. 그러나 표본크기가 충분히 클 때 이 잔차들은 근사적으로 표준정규분포를 따른다. 또한 잔차들은 엄밀하게는 서로 독립이 아니지만, 표본크기가 크면 독립성의 문제는 무시될 수 있다.

두 가지 형태의 잔차는 이와 같이 연관되어 있다. 따라서 잔차플롯을 작성함에 있어서 두 가지 중 어느 것을 사용하는가는 별로 문제가 되지 않는다. 이제부터는 내적 표준화잔차를 이용할 것이다.
4.4 그래프적 방법들
그래프적 방법들은 데이터 분석에서 중요한 역할을 하며, 특히 데이터에 선형모형을 적합할 때 더욱 중요하다. 그래프적 방법들은 탐색적 도구로 간주될 수 있으며, 확증적 분석이나 통계적 추론의 필수적인 구성요소이기도 하다.
동일한 요약통계량 값을 가지는 다음의 데이터를 살펴보자.

다음의 코드를 이용해 각 데이터의 plot을 그려본다.


(1)의 그림은 선형모형이 적절함을 보여준다.
(2)의 그림은 (아마 선형화가 가능한) 비선형모형을 나타낸다.
(3)의 그림은 직선으로부터 멀리 떨어져 있는 점 하나를 제외하면 데이터가 거의 선형모형을 따르고 있음을 보여준다. 이 점은 특이값일 수 있으므로, 데이터로부터 어떤 결론을 도출하기 전에 조사되어야만 한다.
(4)의 그림은 비효율적인 실험 또는 나쁜 표본임을 나타낸다. 회귀 결과에 과도하게 큰 영향을 주는 관측개체를 영향력 있는 관측개체influential observation 라고 하는데, X = 19에 있는 점은 이것이 적합선의 절편과 기울기를 완전히 결정하기 때문에 극단적으로 영향력이 있다.
위의 네 개의 데이터들은 모두 동일한 상관계수(Corr = 0.8)와 동일한 회귀선(Y = 3 + 0.5X)을 가진다. 따라서 산점도를 그려보지 않고 이러한 수치적 요약에만 근거하게 되면, 네 개의 데이터들이 모두 동일한 모형에 의하여 묘사될 수 있다는 잘못된 결론에 도달하게 된다.
따라서 그래프적 방법들은 다음과 같이 여러 가지 방식으로 유용하게 사용될 수 있다.
1) 데이터에 존재하는 오류의 검출 (예: 특이값이 입력오류의 결과일 수 있다.)
2) 데이터에 존재하는 패턴 (예: 군집성, 특이값, 단절성 등)
3) 변수들 사이의 관계에 대한 탐색
4) 새로운 현상의 발견
5) 가정들의 확인 또는 부인
6) 적합모형의 정확성에 대한 평가
7) 개선을 위한 행동들 (예: 데이터의 변환, 실험의 재설계, 더 많은 데이터를 수집하기 등)
8) 수치적 분석의 질을 향상하기
이 장에서는 크게 모형을 적합하기 이전의 그래프와 (데이터에 존재하는 오류를 고치고 모형을 선택하는 데 유용), 모형을 적합한 이후의 그래프 (가정들을 검토하고 적합도를 평가하는 데 유용)를 살펴볼 것이다.
특정 그래프를 탐색하기에 앞서, 어떤 가정이 만족될 때 그 그래프가 어떻게 나타나야 하는지를 알아야 한다. 그 그래프가 기대와 일치하는지 아닌지로, 가정의 올바름 또는 그릇됨을 확인할 수 있을 것이다.
4.5 모형을 적합하기 이전의 그래프
반응변수와 예측변수 사이의 관계를 나타내는 모형의 형태는 이론적 배경 또는 검정될 가설에 근거해야 한다. 그러나 모형의 형태에 대한 어떤 사전정보가 없다면, 데이터가 사용될 수 있다. 데이터에 모형을 적합하기 이전에 그래프들을 살펴보는 것은 탐색적 도구로서의 역할을 한다.
(1) 일차원 그래프
일반적으로 데이터 분석은 연구에 있는 각 변수들을 탐색함으로써 시작한다. 그러한 목적은 개별 변수의 분포를 개략적으로 살펴보는 것이다. 히스토그램, 줄기-잎 그림, 점 플롯, 상자그림 등이 하나의 변수를 탐색하기 위해 사용될 수 있다.
일차원 그래프들은 두 가지 중요한 기능을 가지고 있다.
- 어떤 변수가 대칭인지 아니면 치우쳐져 있는지 등에 대한 분포를 나타낸다. 비대칭의 정도가 심한 변수에 대해서는 변환이 수행되어야 하는데, 보통 로그변환이 추천된다. 이렇듯 원래의 변수를 사용해야 할지, 변환된 변수를 가지고 분석을 수행해야 할지에 대하여 정보를 제공한다.
- 변수에 있는 특이값의 존재 유무를 제시한다. 특이값은 그것이 입력오류 등에 의한 것인지를 알아보기 위해 조사되어야 한다. 또한 이후의 분석에서 문제를 발생시킬 수도 있기 때문에, 분석을 수행할 때 주의 깊게 다루어져야 한다.
(2) 이차원 그래프
다차원 데이터가 주어져 있을 때, 이상적으로는 데이터의 차원과 같은 차원에서 그래프가 탐색되어야 한다 (변수의 수가 적을 경우에만 가능하다). 그러나 변수들을 쌍으로 취하여 각 변수와 다른 변수들 간의 산점도를 살펴볼 수 있다. 이러한 쌍별 산점도의 목적은 각 변수들의 쌍에 대한 관계를 탐색하고 일반적인 패턴을 파악하기 위한 것이다.
변수의 수가 적다면 이들 쌍별 산점도를 행렬의 형태로 배열하는 것이 가능하며, 이것을 산점도행렬plot matrix이라고 부른다. 쌍별 상관계수는 대응되는 산점도와 연관하여 해석해야 하는데, (1) 상관계수는 오직 선형관계만을 측정하며 (2) 로버스트 하지 않아, 데이터에 있는 한두 개의 관측개체에 의해 크게 영향을 받을 수 있기 때문이다.
산점도행렬에서 각 그래프의 형태가 어떻게 나타나야 하는가? 단순회귀에서는 Y 대 X의 산점도가 선형의 형태를 보일 것으로 기대된다. 그러나 다중회귀에서는 Y 대 각 예측변수의 산점도가 선형의 형태를 보일 수도 있고 그렇지 않을 수도 있다. 다음의 사례를 살펴보자.
[사례: Hamilton의 데이터]
이 데이터는 Y가 예측변수의 결합에는 의존하지만 개별적인 예측변수에는 의존하지 않는 데이터 집합이다.

위의 데이터와 코드를 사용하여 아래의 산점도행렬을 얻을 수 있다.

산점도행렬로부터, Y 대 X1과 Y 대 X2의 플롯에 선형관계가 없음을 볼 수 있다. 그러나 X1과 X2에 대하여 Y를 동시에 회귀시키면 거의 완벽한 적합을 얻게 된다.
다른 모든 예측변수들에 대하여 조정된 후 (즉, 선형 효과를 제거한 후) Y 대 각 예측변수의 산점도는 선형으로 나타나야 한다. 두 종류의 이러한 그래프는 성분잔차플롯residual plus component plot 으로 알려져 있다.
예측변수들이 선형적으로 독립임을 가정하고 있기 때문에, 예측변수들의 쌍별 산점도는 선형패턴을 보이지 않아야 한다 (선형이 아니라도, 인식할 수 있는 패턴이 없어야 한다). 그러나 위의 X1-X2의 산점도에 명백한 선형패턴이 존재하기 때문에, 데이터는 이 가정을 만족하지 않는다.
그러나, 이러한 산점도에 선형관계가 보이지 않는다는 것이 전체 예측변수들의 집합이 선형적으로 독립이라는 것을 의미하지는 않기 때문에 주의가 필요하다. 선형관계는 두 개 이상의 변수들을 포함하고 있을 수도 있기 때문이다. 쌍별 산점도를 통해 그러한 다변량 관계를 검출하는 것은 쉽지 않다.
(3) 회전도표
최근의 기술로는, 3차원 이상에서 플롯을 그리는 것도 가능하다. 이러한 플롯의 가장 간단한 형태는 3차원 회전도표이다. 회전도표는 3차원의 구조가 명백해지도록 다양한 방향으로 플롯을 회전시킬 수 있는 세 변수의 산점도이다.
회전은 데이터의 흥미 있는 측면을 보았을 때 멈출 수 있는데, 위의 데이터로 예를 들면; X1과 X2가 Y를 거의 완벽하게 예측하므로, 플롯을 회전하다 보면 점들이 거의 완벽한 평면에 위치함을 볼 수 있다.
(4) 동적 그래프
동적 그래프는 특히 다변량 데이터의 구조와 관계를 탐색하는 데 유용한 도구이다. 컴퓨터 화면상에서 그래프를 조작하여 즉시 변화를 살펴볼 수 있어, 단지 정적인 그래프를 살펴보는 것 이상을 할 수 있다. 이에 관련된 많은 통계 소프트웨어 프로그램들이 개발되어 있다.
4.6 모형을 적합한 이후의 그래프
앞 절에 제시된 그래프들은 데이터 검토와 모형설정 단계에서 유용하다. 모형을 적합한 이후의 그래프들은 가정들을 검토하고 주어진 모형의 적합도를 평가하는 데 도움을 준다. 이 그래프들은 다음과 같은 분류들로 그룹화될 수 있다.
(1) 선형성과 정규성 가정을 검토하기 위한 그래프
(2) 특이값과 영향력 있는 개체를 검출하기 위한 그래프
(3) 변수들의 효과에 대한 진단플롯
4.7 선형성과 정규성 가정에 대한 검토
변수의 수가 적을 경우에는 앞절에서 소개된 플롯들을 동적으로 조작함으로써 선형성 가정을 검토할 수 있지만, 변수의 수가 많을 때는 그것이 쉽지 않다. 이 경우 데이터에 모형을 적합한 후 잔차들을 탐색함으로써 선형성과 정규성 가정을 검토할 수 있다.
(1) 표준화잔차의 정규확률플롯 (Q-Q plot)
이것은 순서화된 표준화잔차 대 정규점수normal score 의 플롯이다. 정규점수는 표준정규분포로부터 크기 n의 표본을 취하였을 때 얻어질 것으로 기대되는 값이다. 잔차가 정규분포에 따른다면 순서화된 잔차는 근사적으로 순서화된 정규점수와 같아야 한다. 정규성 가정 하에서 이 플롯은 절편이 0, 기울기가 1 (각각 표준화잔차의 평균과 표준편차) 인 직선의 형태를 가져야 한다.
(2) 표준화잔차 대 예측변수들의 산점도
표준적인 가정 하에서 표준화잔차는 각 예측변수들과 상관되어 있지 않다. 즉, 플롯에서 어떠한 패턴을 발견할 수 없음을 의미한다. 만약 1) 비선형성 등의 패턴을 나타내거나, 2) 이분산성 등의 문제가 발견된다면, 변환을 통해 모형의 결함을 수정할 수 있다.
(3) 표준화잔차 대 적합값의 플롯
표준적인 가정 하에서 표준화잔차는 적합값과도 상관되어 있지 않다. 따라서 이 가정이 만족된다면, 플롯은 랜덤하게 흩어진 점들을 나타내야 한다.
(4) 표준화잔차의 인덱스플롯
인덱스플롯은 표준화잔차 대 관측개체 번호의 플롯이다. 관측개체의 취해진 순서가 중요한 의미를 가진다면, 연속적인 순서에 의한 잔차플롯은 오차의 독립성 가정을 검토하기 위해 사용될 수 있다. 독립성 가정 하에서 점들은 0 주위의 수평 띠 안에서 랜덤하게 흩어져 있어야 한다.
4.8 지레점, 영향력, 특이값
주어진 데이터에 모형을 적합함에 있어서 한두 개의 관측개체들에 의해 적합이 과도하게 결정되기를 바라지는 않는다. 이러한 점은 큰 잔차를 가지지 않기 때문에 특이값은 아니지만, 영향력이 있는 개체이다. 이처럼 어떤 점이 제외되었을 때 혼자서 또는 다른 점들과 결합하여 적합모형(추정된 회귀계수, 적합값, t-값 등)에 큰 변화를 준다면 그 점을 영향력이 있는influential 점이라고 한다.
여기에서는 영향력 있는 관측개체를 검출하는 방법들을 설명한다. 영향력 있는 개체는 일반적으로 반응변수 Y 또는 예측변수 (X-공간) 에 대하여 특이값이다.
(1) 반응변수에 대한 특이값
큰 표준화잔차를 가지는 관측개체는 Y-방향에서 적합식으로부터 멀리 떨어져 있기 때문에 반응변수 Y에 대한 특이값이다. 표준화잔차는 평균 0과 표준편차 1을 가지는 정규분포에 근사적으로 따르기 때문에, 평균으로부터 2 또는 3보다 큰 표준화잔차를 가지는 점은 특이값outlier 으로 간주된다.
특이값은 모형이 그러한 점에 대하여 적절하지 않을 수 있음을 의미하며, 잔차플롯들을 통해서 파악될 수 있다.
(2) 예측변수들에 대한 특이값

앞선 공식을 살펴보면, 어떤 점이 x bar로부터 멀어질수록 더 큰 지레값 pii를 갖게 됨을 알 수 있다. 이것은 다중회귀에서도 성립한다. 큰 pii 값을 가지는 관측개체는 X-공간에서 특이값이기 때문에 (다른 점들과 비하여), pii는 X-공간 상에서 특이성의 측도로 사용될 수 있다.
반응변수에 대한 특이값과 구별하기 위하여, X-공간에서의 특이값을 높은 지레점high leverage point 이라고 한다. 지레점은 여러 가지 흥미 있는 성질을 가지고 있다.

높은 지레점은 그것이 또한 영향력이 있는지를 알아보기 위하여 탐색되어야 한다. 이때 지레값플롯을 보는 것이 도움이 된다.
(3) 가면문제와 수렁문제
표준화잔차는 선형성, 정규성, 특이값의 존재를 평가하기 위하여 가치 있는 정보를 제공한다. 그러나 잔차에만 근거하여 분석을 수행하면 다음과 같은 이유로, 특이값이나 영향력 있는 관측개체를 찾는 데 실패할지도 모른다.

통상적인 잔차 ei와 지레점 pii는 위와 같은 관계를 가진다. 위 부등식은 높은 지레점이 작은 잔차를 가지는 경향이 있음을 의미한다. 그러므로 특이값을 찾기 위해 표준화잔차를 탐색하는 것뿐만 아니라, 지레점을 탐색하는 것도 추천된다.

이와 같은 이유 때문에 관측개체의 영향력에 대한 추가적인 측도들이 필요하다. 통상적으로 사용되는 pii에 대한 임계값은 2(p + 1) / n = 0.2 이다.
4.9 영향력의 측도
어떤 관측개체의 영향력을 평가하는 방법 중 하나는 그 점을 적합과정에서 제외시켰을 때 일어나는 효과를 검토하는 것이다. 대부분의 경우 개체는 한 번에 하나씩 제거하게 된다.

여기에서는 세 가지 측도를 설명한다.
(1) Cook의 거리
Cook의 거리Cook's distance 는 전체 데이터로부터 얻은 회귀계수들과 i번째 개체를 제거하고 얻은 회귀계수들의 차이를 측정한다. 또는 동일하게 전체 데이터로부터 얻은 적합값들과 i번째 개체를 제거하고 얻은 적합값들의 차이를 측정한다.

만약 어떤 관측개체의 영향력이 크다면 그 개체를 제외할 때 회귀분석의 결과에 큰 변화가 일어날 것이고, 이때 Ci의 값은 크게 될 것이다. 따라서 큰 Ci 값은 그 점이 영향력이 있음을 나타낸다.
Ci의 값이 자유도가 (p + 1, n - p - 1) 인 F-분포의 50% 백분위점보다 큰 경우 i번째 개체를 영향력이 큰 점으로 분류하는 방법이 제안되어 있다. 좀 더 실제적인 방법으로 1보다 큰 Ci 값을 가지는 경우를 모두 영향력이 있는 관측개체로 분류하기도 한다.
그러나 어떤 고정된 방법을 사용하는 것보다는 모든 Ci 값을 검토하는 융통성 있는 방법이 추천된다. 여기에는 점플롯이나 인덱스플롯이 유용하게 쓰인다. 나머지 점들에 비하여 특별히 돋보이는 Ci 값을 가지는 데이터 점들이 있다면 이는 면밀하게 검토될 필요가 있다. 때로는 이들이 가지는 효과를 살펴보기 위해 이들을 제외하고 모형을 재적합해 볼 수도 있을 것이다.
(2) Welsch & Kuh의 측도
Cook의 거리와 유사한 측도로 제안된 DFITS는 다음과 같이 정의된다.


여기에서도, 엄격한 임계값을 사용하는 것보다는 정상보다 상대적으로 큰 영향력을 가지는 관측개체들을 가려내는 측도로 활용하기를 권한다. 인덱스플롯, 점플롯, 상자그림 등은 유용한 그래프적 도구이다.
(3) Hadi의 영향력 측도
Hadi는 영향력 있는 개체가 반응변수 또는 예측변수에 대하여 특이값이라는 사실에 근거하여 i번째 관측개체의 영향력 측도를 제안하였다.

우변의 첫 항은 X-공간에서 특이성을 측정하는 잠재성 함수이다. 두 번째 항은 반응변수에서 특이성을 측정하는 잔차의 함수이다.
만약 어떤 개체가 반응변수 또는 예측변수에 대하여 특이값이면 (즉, ri와 pii 중 하나 또는 둘 다 큰 값을 가지면) 큰 Hi 값을 가질 것임을 보일 수 있다. Hi는 특정한 회귀의 결과에 초점을 두지 않는다. 그러나 적어도 어느 하나의 결과에 대하여 영향을 미치는 관측개체를 찾아내는 포괄적인 측도로 간주될 수 있다. 이는 앞선 측도와 마찬가지로 그래프적인 방법에 의해 잘 탐색될 수 있다.
4.10 잠재성-잔차플롯
Hi에 대한 공식은 높은 지레점 또는 특이값 (혹은 이 둘의 결합) 으로 비정상적인 개체를 분류하는 데 도움을 주는 간단한 그래프를 제시한다. 이 그래프는 다음의 산점도이므로 잠재성-잔차플롯potential-residual plot 으로 불린다.
이제, 어떤 데이터 점들은 상황에 따라 특이값, 높은 지레점, 영향력 있는 점 등으로 구별될 수 있다는 것이 분명해졌다. 지레값과 영향력 측도들의 유용함은 모형 적합의 전체 과정에서 개체들의 역할에 대한 모습을 분석자에게 제시한다는 것이다. 일단 이들 범주 중의 어느 하나에 속하는 관측개체가 있다면 그 개체에 대한 기록오류 등이 없었는지, 분명히 그 데이터 집합에 소속되는 것인지, 비저상적인 조건이나 특이한 상황에서 일어난 것이 아닌지 등에 대한 검토가 있어야 한다.
지렛대 효과는 높으나 영향력이 작은 경우는 큰 문제를 일으키지는 않는다. 그러나 높은 지레값을 가지며 영향력이 큰 점들은 예측변수들의 공간에서 보통의 것들에 비해 멀리 떨어져 있으며 적합에 유의한 영향을 끼치지 때문에 잘 검토할 필요가 있다. 이러한 점들이 분석에 미치는 민감도를 알아보기 위해서, 그 점들을 제외하고 모형적합을 시도하여 이때의 회귀계수들을 살펴볼 것을 권한다.
4.11 특이값에 대한 처리
특이값이나 영향력 있는 개체들은 언제나 그것이 나쁜 개체라는 의미는 아니기 때문에 기계적으로 제외되거나 사소하게 간주되어서는 안 된다. 그것들이 옳다면 오히려 데이터에서 가장 중요한 정보를 가지고 있을지도 모른다.
예를 들어, 그것들은 데이터가 정상적인 모집단으로부터 추출되지 않았다든가 또는 모형이 선형이 아니라는 것을 의미할 수도 있다. 일정 시간까지는 개체수가 서서히 증가하다가 어떤 시간의 임계값을 지나면 개체수가 폭발적으로 증가하는 박테리아의 지수적 성장 데이터 등이 그 예가 될 수 있다.
따라서 그러한 점들은 왜 특이하고 영향력이 있는지 탐색되어야 한다. 이러한 탐색에 근거하여 적절한 수정작업이 취해져야 하는데, 다음과 같은 작업들이 포함된다: 데이터에 있는 오류의 수정, 특이값의 제외 또는 가중치를 작게 하기, 데이터의 변환, 다른 모형을 고려하기, 실험이나 표본조사를 재설계하기, 더 많은 데이터를 수집하기.
4.12 변수들의 효과에 관한 진단플롯
현재 p개의 예측변수를 포함하는 회귀모형이 주어져 있을 때, 하나의 예측변수를 빼거나 더함으로써 생기는 효과는 무엇인가 하는 것은 실제 문제에서 자주 발생하는 질문 중 하나이다. 흔히 이에 대한 답은 각 변수에 대한 t-검정을 통해 얻어지는데, t-검정의 절댓값이 크면 그 변수가 보유되고 그렇지 않으면 제거된다. 이것은 기본적인 가정들이 만족될 때만 유효하다.
따라서 t-검정은 적절한 그래프와 연결하여 해석되어야 한다. 다음에 설명되는 두 가지 플롯은 이에 관련된 정보를 시각적으로 나타낼 뿐만 아니라, 때때로 상황의 본질을 분명하게 해주는 역할을 한다. 이것들은 회귀방정식에 어떤 변수를 보유해야 할 것인지 아니면 제거해야 할 것인지를 결정하기 위하여 t-검정에 대한 보조도구로 사용될 수 있다.
(1) 첨가변수플롯added-variable plot
첨가변수플롯은 회귀모형에 특정 예측변수를 포함시킬 것인지의 여부를 검토할 때, 그 대상이 되는 예측변수에 대한 회귀계수의 크기를 그래프를 통하여 표현한다. 플롯에 나타나는 점들의 기울기는 곧 해당 예측변수에 대한 회귀계수를 나타낸다. 또한 이 플롯은 그 계수의 크기를 결정하는 데 중요한 역할을 하는 데이터 점을 제시해 주기도 한다.
첨가변수플롯은 각 예측변수 Xj에 대하여 구축될 수 있으며, Xj에 대한 플롯은 다음과 같은 두 개의 서로 다른 잔차들의 그래프이다. 첫 번째는 Xj를 제외한 모든 예측변수들에 Y를 회귀시켰을 때의 잔차이며, Y-잔차라고 불린다. 두 번째는 모든 다른 예측변수들에 Xj를 회귀시켰을 때의 잔차이며, Xj-잔차라고 불린다.
그러므로 이용 가능한 p개의 예측변수가 있다면 각 예측변수에 하나씩 p개의 첨가변수플롯을 작성할 수 있다.
Xj에 대한 첨가변수플롯에서의 Y-잔차는 Xj를 제외한 다른 예측변수들에 의하여 설명되지 않은 Y의 부분을 의미한다. 유사하게 Xj-잔차는 다른 예측변수들에 의하여 설명되지 않은 Xj의 부분을 의미한다.
이 플롯에 나타난 점들이 뚜렷한 기울기를 보이지 않는다면 이는 그 변수가 모형에서 별로 유용하지 않음을 나타낸다. 또한 이 플롯은 데이터 점들 중 어느 것이 그들의 기울기와 대응되는 t-검정의 값을 결정하는 데 중요한 역할을 하고 있는지를 시각적으로 파악하게 해 준다. 이러한 첨가변수플롯은 편회귀플롯partial regression plot 으로도 알려져 있다.
(2) 성분잔차플롯residual plus component plot
이 기법은 편잔차플롯partial residual plot 이라고도 불린다. Xj에 대한 성분잔차플롯은 다음의 산점도이다.


첨가변수플롯과 마찬가지로 이 플롯에서 점들의 기울기는 Xj에 대한 회귀계수 beta hat j이다. 따라서 이 플롯은 해당 예측변수의 기울기를 보여줄 뿐만 아니라 Y와 Xj 사이의 비선형성의 존재도 알려줌으로써 필요할 경우 예측변수에 관한 구체적인 선형변환의 내용까지도 제시한다는 것이다.
물론 두 플롯은 모두 유용하지만, 성분잔차플롯이 첨가변수플롯보다 특정 예측변수를 회귀모형에 도입해야 하느냐 하는 문제에 대한 대답이나 그 예측변수가 가지는 비선형성의 여부를 탐색하는 데 더 민감한 것으로 알려져 있다. 반면에 첨가변수플롯은 그의 해석이 쉽고, 특히 영향력 있는 관측개체나 특이값을 찾아내는 데 용이한 것으로 알려져 있다.
4.13 추가적인 예측변수의 효과
여기에서는 회귀식에 새로운 변수를 도입하는 것의 효과에 대하여 논의한다.
(a) 새로운 변수의 회귀계수가 유의한가?
(b) 새로운 변수를 도입함으로써 회귀식에 이미 포함되어 있는 변수들의 회귀계수를 유의하게 변화시키는가?
- 경우 A | 새로운 변수가 유의하지 않은 회귀계수를 가지며, 다른 회귀계수들도 이전의 값에 비하여 거의 변화가 없다. 다른 외부적인 조건에 의하여 필요성이 있지 않다면, 이 경우 새로운 변수는 회귀식에 포함되지 않아야 한다.
- 경우 B | 새로운 변수가 유의한 회귀계수를 가지며, 이전에 도입된 다른 변수들의 회귀계수에 큰 변화가 있다. 이 경우 새로운 변수가 유지되어야 하며, 그러나 공선성에 대한 탐색이 필요하다. 공선성의 증거가 없다면 그 변수는 방정식에 포함되고, 공선성을 보인다면 제10장에서 설명되는 수정작업이 취해져야 한다.
- 경우 C | 새로운 변수가 유의한 회귀계수를 가지나, 다른 회귀계수들은 이전의 값에 비하여 큰 변화가 없다. 이것은 이상적인 상황이며 새로운 변수가 이전에 도입된 변수들과 상관되어 있지 않을 때 발생하므로, 이 새로운 변수는 방정식에 포함되어야 한다.
- 경우 D | 새로운 변수가 유의하지 않은 회귀계수를 가지며, 이전에 도입된 다른 변수들의 회귀계수에 큰 변화가 있다. 이것은 명백한 공선성의 증거이며, 회귀식에 새로운 변수를 포함시킬 것인지 제외시킬 것인지를 결정하기 전에 수정작업이 취해져야 한다.
이러한 논의로부터, 어떤 변수가 회귀식에 미치는 효과가 적합식에 그 변수가 포함되어야 할지를 결정한다는 것이 명확하다.
4.14 로버스트 회귀
특이값과 영향력 있는 관측개체를 식별하는 데 유용한 다른 접근방법은 로버스트 회귀robust regression 이다. 이것은 높은 지레값을 가지는 관측개체에 상대적으로 낮은 가중치를 주고 회귀직선을 적합시킨다.
'📊 통계 > 🐠 회귀분석' 카테고리의 다른 글
제5장 질적 예측변수 (1) | 2025.01.31 |
---|---|
제3장 다중선형회귀 (1) | 2024.10.04 |
제2장 단순선형회귀 (0) | 2024.09.23 |
제1장 서론 (0) | 2024.09.09 |