📊 통계 18

제5장 질적 예측변수

5.1 소개  성별, 결혼여부 등과 같은 질적 또는 범주형 요인들이 회귀분석에서 반응변수의 변화를 설명하는 데 매우 유용한 예측변수 역할을 할 때가 있다. 이런 질적요인들을 예측변수로 이용할 경우 이들은 다음에 설명되는 바와 같이 지시변수indicator variable 또는 가변수dummy variable 의 형식으로 표현된다. 가변수들은 관측개체가 취하는 질적 상태에 따라 0 또는 1의 두 가지 값을 갖는 경우가 많다. 이 두 가지 가능한 값은 범주의 양적 순서를 나타내기 위한 것이 아니라, 단지 관측개체가 속하는 범주나 집단을 식별하는 역할을 한다.     5.2 급료조사 데이터  이 데이터는 어떤 회사에 근무하는 컴퓨터 전문인들의 급료조사로부터 얻은 것이다. 이 조사의 목적은 급료의 차이를 결정하..

제4장 회귀진단

4.1 소개  앞서 언급한 분포이론, 신뢰구간, 가설검정 등은 표준적인 회귀의 가정들이 만족될 때만 유효하고 의미를 가질 수 있다. 이들 가정이 위반된다면, 이전에 언급된 표준적인 결과들은 유효하지 않으며 결과의 응용이 심각한 오류를 야기할 수도 있다. 이 장은 엄격한 수치적 규칙들을 적용하는 것보다도, 그래프적인 방법에 의존해 이러한 가정들을 검토하는 방법을 제시한다.     4.2 회귀분석의 표준적인 가정들  제2장과 제3장에서 제시된 최소제곱추정량과 통계분석들은 다음과 같은 가정들에 근거한 것이다.  이것은 선형성linearity 가정이라고 불린다. 단순회귀에서는 Y 대 X의 산점도가 선형적인지를 봄으로써 쉽게 확인할 수 있다. 다중회귀에서는 데이터의 고차원성 때문에 선형성을 검토하는 것이 쉽지 않..

제3장 다중선형회귀

3.1 소개  이 장에서는 여러 개의 설명변수를 가지는 다중선형회귀모형을 다룬다.     3.2 데이터와 모형에 대한 서술   다중선형회귀는 단순선형회귀의 확장(일반화)이다. 모든 단순회귀의 결과들은 예측변수의 수가 p = 1인 경우의 다중회귀를 이용하여 얻을 수 있기 때문에, 단순회귀를 다중회귀의 특별한 경우로 생각할 수 있다.     3.3 사례: 감독자 직무수행능력 데이터  다음의 데이터는 어떤 대형금융기관에 근무하는 사무직원들에게 그의 감독자에 대한 만족도를 질문하는 설문조사를 진행한 것이다. 문항은 총 6개이며, 응답은 각 문항에 대한 만족도에 따라 1에서 5까지의 값을 가진다. 이때 각 문항에 대하여 그 값이 {1, 2}에 해당하면 '만족한 응답'으로, {3, 4, 5}에 해당하면 '불만족한 ..

제2장 단순선형회귀

2.1 소개  반응변수 Y와 하나의 예측변수 X 사이의 관계를 연구하는 간단한 경우를 가지고 시작한다.     2.2 공분산과 상관계수  Y와 X 간 연관관계의 방향direction과 강도strength를 측정하고자 한다. 공분산covariance과 상관계수correlation coefficient로 알려진 두 개의 측도들은 아래와 같이 전개된다.  만약 Y와 X의 선형관계가 양이면(X가 증가함에 따라서 Y도 증가하면), 1 사분면과 3 사분면에 더 많은 점들이 있게 되어 편차곱의 합계는 양의 값을 가질 것이고, 반대로 Y와 X의 선형관계가 음이면(X가 증가함에 따라서 Y가 감소하면), 2 사분면과 4 사분면에 더 많은 점들이 있게 되어 편차곱의 합계는 음의 값을 가질 것이다.  Cov(Y, X) > 0..

제1장 서론

1.1 회귀분석이란 무엇인가?  회귀분석Regression Analysis은 변수들 사이의 함수적 관계를 탐색하는 개념적으로 단순한 방법이다.여기서 관련성은 반응response 혹은 종속dependent변수와 설명explanatory 혹은 예측predictor변수들을 연결하는 방정식 또는 모형의 형태로 표현된다.       1.2 공개적으로 이용 가능한 데이터 세트  회귀분석은 매우 다양한 응용 영역을 가지고 있다. 회귀분석은 독자들이 직접적으로 관심이 있는 데이터를 분석함으로써 매우 효과적으로 학습된다. 독자들은 적절한 데이터를 수집하고, 이 책에서 제시된 회귀분석 방법들을 자신의 데이터에 적용해야 한다.     1.3 회귀분석의 몇 가지 응용 예  회귀분석은 가장 널리 사용되는 통계적 도구 중 하나로..

제11장 범주형 자료분석

반응변수가 양적 자료가 아닌 질적 자료 또는 범주형categorical 자료로 주어질 때가 있다. 각 실험단위가 숫자가 아닌 질 또는 특성으로 측정된 경우 조사된 전체 자료는 범주나 특성으로 분류한 후 각 반응범주에 속하게 되는 자료의 개수를 나타냄으로써 자료를 정리할 수 있다.  11.1 범주형 자료와 다항실험  각 시행에서 가능한 결과가 셋 이상이 되는 실험을 다항실험multinomial experiment이라 한다.  ▼ 다항 실험의 성격      11.2 카이제곱 통계량  이항실험은 k = 2인 다항실험이다. 이항확률변수와 관련된 성공확률 p에 대한 추론에서는 대표본인 경우 Z통계량에 근거한 정규분포를 사용하였으나, 다항확률에 대한 추론에서는 카이제곱분포에 근거한 카이제곱 통계량이 사용된다.   ..

제10장 가설검정

10.1 가설검정의 이론  1. 통계적 가설과 검정통계량 가설검정은 모집단(모수)에 대한 어떠한 가설을 설정하고 그 모집단으로부터 추출한 표본을 분석함으로써 그 가설의 타당성 여부를 결정하는 것이다. 통계적 가설이 맞는지 틀린 지는 모집단 전체를 조사하지 않는 한 확실하게 알 수 없다. 그러나 모집단 전체를 조사한다는 것은 현실적으로 불가능할 뿐만 아니라 시간과 비용이 너무 많이 들어 비효율적일 때가 있다. 이러한 경우 표본을 선택하여 그 표본을 분석함으로써 모집단에 대한 주장(가설)의 타당성을 검정할 수 있다.   ▼ 가설의 종류귀무가설H0, Null Hypothesis | 기존에 알려진 사실을 간단하고 구체적으로 표현한 가설이다.대립가설H1, Alternative Hypothesis | 실험자가 사실..

제9장 구간추정

점추정량이 불편성, 효율성, 일치성을 만족해 바람직한 추정량이 되더라도 점추정량으로 얻은 점추정값은 모수를 중심으로 확률적으로 분포된 확률변수의 한 값일 뿐이기 때문에, 점추정값이 모수와 정확히 일치한다고 단정 지을 수 없다. 따라서 더욱 타당한 추정을 하기 위해 하나의 점추정값으로 모수를 추정하는 것이 아니라 일정한 신뢰수준confidence level 하에서 모수가 포함되어 있으리라고 기대되는 구간으로 모수를 추정하게 된다. 이것을 구간추정interval estimation이라 하고 추정된 구간을 신뢰구간confidence interval이라고 한다.   9.1 신뢰구간  ▼ 신뢰구간 여기서 100(1 - alpha)%를 구간추정의 신뢰 수준이라고 하고 보통 95%를 주로 사용한다. 신뢰 수준 95%..

제8장 점추정

통계적 추론은 모집단의 특성을 나타내는 모수에 관한 의사결정이나 예측이다. 특히 모수에 관한 통계적 추론은 추정estimation과 가설검정hypothesis testing으로 나뉜다. 모르는 모수의 참값을 추론하기 위해 표본을 추출하여 하나의 값으로 모수를 추측하거나 모수가 속하는 범위를 추측하는데 전자를 점추정point estimation이라 하고 후자를 구간추정interval estimation이라 한다. 모평균 또는 모비율과 같은 우리가 관심 있는 모수에 대해서 알려고 할 때 점추정의 목적은 표본을 사용하여 모수의 참값을 효율적으로 추측하는 데 있다.   8.1 점추정량  통계량statistic | 관측 가능한 확률변수의 함수를 통계량이라 하고 통계량은 그 자신이 관측 가능한 확률변수이며 미지의 ..

제7장 표본분포

모집단에 대한 결정을 내리거나 추론을 위해 표본에서 표본통계량sample statistic을 계산하는데, 그 값은 추출된 표본이 변함에 따라 같이 변한다. 즉, 표본통계량 자체도 확률변수이므로 표본통계량도 확률변수처럼 확률분포를 갖는다. 이 표본통계량의 확률분포를 표본분포라고 하며, 이는 통계적 추론의 기초가 된다.   7.1 확률표본  모집단의 부분인 표본을 이용하여 모집단의 특성을 파악하고자 한다면, 어느 정도의 오차error가 발생하게 된다. 이때 표본과 모집단 사이에 확률개념을 사용하면, 이러한 오차를 최소화하여 보다 바람직한 통계분석의 결과를 기대할 수 있을 것이다. 표본이 모집단을 대표하기 위해서는 추출방법이 무엇보다 중요하다. 여러 가지 추출방법 중 가장 간단하고 이상적인 방법이 무작위추출r..