5.1 소개
성별, 결혼여부 등과 같은 질적 또는 범주형 요인들이 회귀분석에서 반응변수의 변화를 설명하는 데 매우 유용한 예측변수 역할을 할 때가 있다. 이런 질적요인들을 예측변수로 이용할 경우 이들은 다음에 설명되는 바와 같이 지시변수indicator variable 또는 가변수dummy variable 의 형식으로 표현된다.
가변수들은 관측개체가 취하는 질적 상태에 따라 0 또는 1의 두 가지 값을 갖는 경우가 많다. 이 두 가지 가능한 값은 범주의 양적 순서를 나타내기 위한 것이 아니라, 단지 관측개체가 속하는 범주나 집단을 식별하는 역할을 한다.
5.2 급료조사 데이터
이 데이터는 어떤 회사에 근무하는 컴퓨터 전문인들의 급료조사로부터 얻은 것이다. 이 조사의 목적은 급료의 차이를 결정하는 여러 요인들을 식별하고 이들을 수량화하는 데 있다. 반응변수는 급료(S)이고, 예측변수는 경력연수(X), 교육수준(E), 관리(M) 이다.
여기에서 교육수준(E)은 고졸의 경우 1, 대학 학부졸업의 경우 2, 그 이상의 학력은 3으로 입력되어 있다. 관리(M)는 관리책임이 있는 사람은 1로, 그렇지 않은 사람은 0으로 입력되어 있다.
급료(S)와 경력연수(X)에 대해서는 선형관계를 사용할 것이다. 교육수준(E)에 대해서도 보통의 양적인 변수를 가정하여 선형으로 다룰 수도 있겠으나, 이 경우 학력의 한 단계 증가가 곧 급료에서의 고정된 금액 인상 효과가 있음을 의미하게 되므로 현실적인 상황을 지나치게 단순화시키고 있음을 알 수 있다. 대신 교육수준을 질적인 범주형 변수로 간주한다면, 가변수를 이용해서 교육수준 범주별로 서로 다른 급료의 효과를 가정할 수 있어 좀 더 현실적이고 신축적인 상황을 모형에 반영할 수 있을 것이다.
여러 범주를 표현하기 위하여 가변수를 사용할 경우 필요한 가변수의 개수는 일반적으로 가능한 범주의 수보다 하나 작게 잡으면 된다. 예를 들어, 교육수준(E)의 가능한 범주 3개를 처리하기 위해서는 다음과 같은 두 개의 가변수가 있으면 충분하다.
이 경우, E1 = 1, E2 = 0이면 고교졸업, E1 = 0, E2 = 1이면 대학 학부졸업, E1 = 0, E2 = 0이면 대학원 이상의 경우에 해당한다. 마찬가지로 관리(M) 변수는 2개의 수준을 가지므로 이에 대해서는 단 하나의 가변수만 생각하면 될 것이다.
지시변수에 의하여 표현되지 않는 범주는 기저범주base category 또는 대조그룹control group 이라고 불리는데, 지시변수의 회귀계수가 대조그룹에 대한 상대적인 값으로 해석되기 때문이다.
앞에서 설명한 가변수들을 사용한 회귀모형은 다음과 같다.
(위의 경우, 교육수준(E)의 기저범주가 1로 설정되었다.)
- 경력년수(X)의 계수가 546.16이므로, 경력년수가 1년 많으면 이에 대한 연봉의 증분은 약 546달러가 됨을 알 수 있다.
- 관리직 여부(M)에 대한 가변수의 계수가 6883.5로 추정되었다. 이 값은 관리직에 있을 경우 연봉의 평균증분에 해당된다.
- 교육수준(E)을 나타내는 가변수 E1, E2들 중, E1의 회귀계수는 대학졸업 범주가 고교졸업 범주에 대해 가지는 연봉의 차이를, E2의 회귀계수는 대학졸업 이상 범주가 고교졸업 범주에 대해 가지는 연봉의 차이를 측정한다. 따라서 이 두 회귀계수의 차이는 대학졸업 이상 범주가 대학졸업 범주에 대해 가지는 연봉의 차이를 나타내게 된다. 따라서 대졸 학력은 고졸 학력보다 3144달러를 더 받으며, 대졸 이상의 학력은 고졸 학력보다 2996달러를 더 받는다. 그리고 대졸 이상의 학력은 대졸 학력보다 148달러를 덜 받는다는 것을 알 수 있다.
5.3 상호작용변수
그래프를 통한 분석기법은 대수적인 방법으로는 때때로 잘 밝혀지지 않은 데이터 속에 숨겨진 구조에 관해 좋은 정보를 제공하기도 한다.
만약 가법적인additive 모형이 부적절하다면 설명변수들 간의 비가법적 효과를 반영하기 위해 승법multiplicative 또는 교호작용interative effect 을 나타내는 새로운 예측변수들을 모형에 포함하면 이런 문제가 해결될지도 모른다.
전체적으로 회귀계수의 추정값에는 별 변동이 없다. 그러나 잔차들의 표준편차가 현저히 줄어들었으며, 결정계수는 0.9988까지 늘어났다. 잔차플롯도 각 범주마다 0에 대해 대칭적으로 랜덤하게 분포되어 있음을 볼 수 있다. 따라서 상호작용을 나타내는 항목을 고려한 모형이 급료의 변이를 더 잘 설명하고 있다고 볼 수 있다.
위 회귀계수의 신뢰구간을 계산해, 6개 교육수준-관리 범주조합의 급료인상 정도를 확인할 수 있다.
결론적으로 가변수들과 그들 간의 상호작용을 나타내는 항목들을 모두 사용한 회귀모형으로 컴퓨터 전문인들의 급료가 가지는 변이를 잘 설명할 수 있었으며, 모형이 가지는 정확성의 수준도 상당히 만족스러운 것이었다. 또한 이 회사의 급료관리도 정밀하게 짜여 있으며, 엄격하게 지켜지고 있다고 추측되었다.
일반적으로 모형구축의 과정은 간단한 모형으로부터 시작하여 필요에 의해 점차 복잡한 모형으로 발전하게 된다. 이는 잔차구조에 이상이 없는 한 언제나 가장 간단한 모형을 원하는 것이 상례이기 때문이다. 위의 예제에서도 가법모형이 급료의 변이를 잘 설명하지 못하고 있는 것을 확인한 후에 상호작용 변수를 추가로 고려한 점을 상기할 필요가 있다.
5.4 회귀방정식의 체계: 두 집단의 비교
하나의 데이터가 각각 다른 회귀식을 필요로 하는 두 개 또는 그 이상의 부분집단으로 구성되어 있을 수도 있다. 이런 경우 모든 부분집단들이 합쳐진 전체 데이터에 대하여 단 하나의 회귀관계만 사용한다면 심각한 편향의 문제가 발생할 수 있다. 데이터의 부분집합들에 대해 별도의 회귀분석을 수행하는 기법은 횡단면cross-sectional 데이터나 시계열time series 데이터 등에 응용될 수 있다.
다음 예는 횡단면 데이터에 관한 것이다. 두 집단에 대한 모형은 모든 측면에서 다를 수도 있고 아니면 몇 가지 측면에서만 다를 수도 있다. 이 절에서는 세 가지 구별되는 경우를 다룬다.
- 각 집단이 분리된 회귀모형을 가지는 경우
- 모형들이 동일한 절편항을 가지지만 기울기는 다른 경우
- 모형들이 동일한 기울기를 가지지만 절편항은 다른 경우
오직 하나의 양적 예측변수를 가지고 있는 경우를 사례로 들 것이다. 물론 하나 이상의 양적 예측변수를 가지고 있는 경우로 바로 확장될 수 있다.
5.5 지시변수에 대한 다른 응용들
5.6 계절성
5.7 회귀모수의 시간에 걸친 안정성
'📊 통계 > 🐠 회귀분석' 카테고리의 다른 글
제4장 회귀진단 (0) | 2025.01.19 |
---|---|
제3장 다중선형회귀 (1) | 2024.10.04 |
제2장 단순선형회귀 (0) | 2024.09.23 |
제1장 서론 (0) | 2024.09.09 |