📊 통계/🐠 회귀분석

제1장 서론

꽁광부 2024. 9. 9. 15:57
1.1 회귀분석이란 무엇인가?

 

 

회귀분석Regression Analysis은 변수들 사이의 함수적 관계를 탐색하는 개념적으로 단순한 방법이다.

여기서 관련성은 반응response 혹은 종속dependent변수와 설명explanatory 혹은 예측predictor변수들을 연결하는 방정식 또는 모형의 형태로 표현된다.

 

 

 

 

 

 

 

1.2 공개적으로 이용 가능한 데이터 세트

 

 

회귀분석은 매우 다양한 응용 영역을 가지고 있다. 회귀분석은 독자들이 직접적으로 관심이 있는 데이터를 분석함으로써 매우 효과적으로 학습된다. 독자들은 적절한 데이터를 수집하고, 이 책에서 제시된 회귀분석 방법들을 자신의 데이터에 적용해야 한다.

 

 

 

 

 

1.3 회귀분석의 몇 가지 응용 예

 

 

회귀분석은 가장 널리 사용되는 통계적 도구 중 하나로서, 변수들 사이의 함수적 관계를 구축하는 간단한 방법들을 제공하며, 많은 주제 영역에 있어서 광범위하게 응용할 수 있다. 농학, 산업 및 노동, 정치, 역사, 환경, 산업 생산, 의료서비스 분야에 걸쳐 다양하게 활용된다.

 

 

 

 

 

1.4 회귀분석의 단계

 

 

회귀분석은 다음과 같은 단계들을 포함한다.

 

 

1) 문제에 대한 진술

일반적으로 회귀분석은 문제에 대한 정식화formulation of the problem로 시작된다. 이것은 분석에 의해서 다루어질 문제들을 결정하는 것을 포함한다. 잘못 정의된 문제나 질문은 부적절한 변수들의 집합을 선택하게 하거나, 옳지 않은 통계적 분석방법을 선택하게 하거나, 옳지 않은 모형을 선택하게 하기 때문에 이를 정확히 정의하는 것이 중요하다.

 

 

2) 잠재적으로 적절한 변수들의 선택

연구 분야의 전문가들에 의하여 반응변수를 설명하거나 예측할 것으로 생각되는 일련의 변수들을 선택하는 것이다.

 

 

3) 데이터 수집

분석에 사용될 데이터를 수집하는 것이다. 수집된 데이터는 n개의 관측개체들로 구성되는데, 이 관측개체들은 잠재적인 적절한 변수들 각각에 대한 추정치들로 구성된다.

각 변수들은 양적quantitative 혹은 질적qualitative 변수로 분류될 수 있다. 변수의 형태에 따라서 선형 회귀, 로지스틱 회귀, 분산분석, 공분산분석 등을 진행할 수 있다.

 

 

4) 모형 설정

모형은 예측변수들의 집합에 반응변수를 관련시키는 것으로, 연구자들의 지식 혹은 주관적/객관적 판단에 근거하여 연구분야에 있는 전문가들에 의해서 초기에 설정될 수 있다. 그러한 가설적 모형은 수집된 데이터에 대한 분석에 의해서 확증되거나 반박된다. 모형은 알려지지 않은 모수parameter에 의존한다.

 

우리는 함수의 형태를 선택할 필요가 있는데, 이 함수는 선형linear과 비선형nonlinear 두 개의 유형으로 분류될 수 있다.

 

 

여기에서 선형(비선형)이라는 용어는 Y와 X 변수들의 집합 간의 관계를 묘사하는 것이 아니라, 회귀모수가 방정식에 선형적(비선형적)으로 삽입되어 있는지의 여부와 관련이 있다. 이때 변수들은 변환transform될 수 있다. 선형함수로 변환할 수 있는 모든 비선형 함수는 선형가능linearizable 함수라고 불린다.

 

  • 예측변수의 수에 따라 | 오직 하나의 예측변수만을 가진 회귀방정식을 단순회귀방정식simple regression equation이라고 부르고, 하나 이상의 예측변수들을 가진 방정식은 다중회귀방정식multiple regression equation이라고 부른다.
  • 반응변수의 수에 따라 | 오직 하나의 반응변수를 다룰 때의 회귀분석을 일변량univariate 회귀라고 부르고, 두 개 이상의 반응변수를 다루는 회귀분석을 다변량multivariate 회귀라고 부른다.

 

 

5) 적합방법의 선택

수집된 데이터에 기초하여 모형의 모수들을 추정하는 것을 모수추정parameter estimation 혹은 모형적합model fitting이라고 한다. 가장 일반적으로 사용되는 추정방법은 최소제곱least square법이다. 최소제곱법의 변형(예: 가중최소제곱), 최대우도maximum likelihood법, 능형ridge방법, 주성분principal component방법 등을 고려할 수 있다.

 

 

6) 모형 적합

선택된 추정방법을 이용하여 회귀모수를 추정하거나 수집된 데이터에 모형을 적합하는 것이다.

 

 

 

 

7) 모형 평가 및 비판

회귀분석과 같은 통계적 방법의 타당성은 가정에 의존한다. 어떤 목적을 위해 식을 사용하기에 앞서, 먼저 설정된 가정들이 성립하는지를 점검할 필요가 있으며, 다음과 같은 질문들을 제기할 필요가 있다.

 

  • 필요한 가정들은 무엇인가?
  • 이러한 가정들 각각에 대하여, 그 가정들이 타당한지를 어떻게 결정할 것인가?
  • 하나 이상의 가정들이 성립하지 않는 경우 무엇을 할 수 있는가?

 

회귀분석은 가정들이 성립하고 데이터에 적절하게 잘 적합되도록 추정된 모형을 찾는 반복적iterative 과정으로 간주된다.

 

 

8) 주어진 문제에 대한 해결을 위해 선택된 모형을 사용

회귀방정식을 명시적으로 결정하는 것은 분석의 가장 중요한 산출물이다. 우리는 회귀분석을 어떤 환경에서 변수들 사이의 관계를 이해하는 데 도움을 줄 수 있는 데이터 분석적 기법으로 간주한다. 회귀분석의 작업은 데이터에 의해서 반영되는 환경에 대하여 가능한 많은 이해가 요구된다. 우리는 회귀방정식의 형성을 통해서는 설명되지 않는 것들도 때로는 최종 방정식만큼이나 가치가 있고 정보를 가질 수 있다는 것을 강조하고자 한다.

 

 

 

 

 

1.5 이 책의 범위와 구성

 

 

필요한 요약통계량들은 회귀분석 패키지로부터 계산될 수 있다고 가정한다.

 


 

'📊 통계 > 🐠 회귀분석' 카테고리의 다른 글

제5장 질적 예측변수  (1) 2025.01.31
제4장 회귀진단  (0) 2025.01.19
제3장 다중선형회귀  (1) 2024.10.04
제2장 단순선형회귀  (0) 2024.09.23