📊 통계/🌱 통계학원론 11

제11장 범주형 자료분석

반응변수가 양적 자료가 아닌 질적 자료 또는 범주형categorical 자료로 주어질 때가 있다. 각 실험단위가 숫자가 아닌 질 또는 특성으로 측정된 경우 조사된 전체 자료는 범주나 특성으로 분류한 후 각 반응범주에 속하게 되는 자료의 개수를 나타냄으로써 자료를 정리할 수 있다.  11.1 범주형 자료와 다항실험  각 시행에서 가능한 결과가 셋 이상이 되는 실험을 다항실험multinomial experiment이라 한다.  ▼ 다항 실험의 성격      11.2 카이제곱 통계량  이항실험은 k = 2인 다항실험이다. 이항확률변수와 관련된 성공확률 p에 대한 추론에서는 대표본인 경우 Z통계량에 근거한 정규분포를 사용하였으나, 다항확률에 대한 추론에서는 카이제곱분포에 근거한 카이제곱 통계량이 사용된다.   ..

제10장 가설검정

10.1 가설검정의 이론  1. 통계적 가설과 검정통계량 가설검정은 모집단(모수)에 대한 어떠한 가설을 설정하고 그 모집단으로부터 추출한 표본을 분석함으로써 그 가설의 타당성 여부를 결정하는 것이다. 통계적 가설이 맞는지 틀린 지는 모집단 전체를 조사하지 않는 한 확실하게 알 수 없다. 그러나 모집단 전체를 조사한다는 것은 현실적으로 불가능할 뿐만 아니라 시간과 비용이 너무 많이 들어 비효율적일 때가 있다. 이러한 경우 표본을 선택하여 그 표본을 분석함으로써 모집단에 대한 주장(가설)의 타당성을 검정할 수 있다.   ▼ 가설의 종류귀무가설H0, Null Hypothesis | 기존에 알려진 사실을 간단하고 구체적으로 표현한 가설이다.대립가설H1, Alternative Hypothesis | 실험자가 사실..

제9장 구간추정

점추정량이 불편성, 효율성, 일치성을 만족해 바람직한 추정량이 되더라도 점추정량으로 얻은 점추정값은 모수를 중심으로 확률적으로 분포된 확률변수의 한 값일 뿐이기 때문에, 점추정값이 모수와 정확히 일치한다고 단정 지을 수 없다. 따라서 더욱 타당한 추정을 하기 위해 하나의 점추정값으로 모수를 추정하는 것이 아니라 일정한 신뢰수준confidence level 하에서 모수가 포함되어 있으리라고 기대되는 구간으로 모수를 추정하게 된다. 이것을 구간추정interval estimation이라 하고 추정된 구간을 신뢰구간confidence interval이라고 한다.   9.1 신뢰구간  ▼ 신뢰구간 여기서 100(1 - alpha)%를 구간추정의 신뢰 수준이라고 하고 보통 95%를 주로 사용한다. 신뢰 수준 95%..

제8장 점추정

통계적 추론은 모집단의 특성을 나타내는 모수에 관한 의사결정이나 예측이다. 특히 모수에 관한 통계적 추론은 추정estimation과 가설검정hypothesis testing으로 나뉜다. 모르는 모수의 참값을 추론하기 위해 표본을 추출하여 하나의 값으로 모수를 추측하거나 모수가 속하는 범위를 추측하는데 전자를 점추정point estimation이라 하고 후자를 구간추정interval estimation이라 한다. 모평균 또는 모비율과 같은 우리가 관심 있는 모수에 대해서 알려고 할 때 점추정의 목적은 표본을 사용하여 모수의 참값을 효율적으로 추측하는 데 있다.   8.1 점추정량  통계량statistic | 관측 가능한 확률변수의 함수를 통계량이라 하고 통계량은 그 자신이 관측 가능한 확률변수이며 미지의 ..

제7장 표본분포

모집단에 대한 결정을 내리거나 추론을 위해 표본에서 표본통계량sample statistic을 계산하는데, 그 값은 추출된 표본이 변함에 따라 같이 변한다. 즉, 표본통계량 자체도 확률변수이므로 표본통계량도 확률변수처럼 확률분포를 갖는다. 이 표본통계량의 확률분포를 표본분포라고 하며, 이는 통계적 추론의 기초가 된다.   7.1 확률표본  모집단의 부분인 표본을 이용하여 모집단의 특성을 파악하고자 한다면, 어느 정도의 오차error가 발생하게 된다. 이때 표본과 모집단 사이에 확률개념을 사용하면, 이러한 오차를 최소화하여 보다 바람직한 통계분석의 결과를 기대할 수 있을 것이다. 표본이 모집단을 대표하기 위해서는 추출방법이 무엇보다 중요하다. 여러 가지 추출방법 중 가장 간단하고 이상적인 방법이 무작위추출r..

제6장 이변량 확률변수

6.1 결합분포와 주변분포  ▼ 결합확률질량함수 결합확률은 한 개의 확률변수에서 정의되었던 확률의 공리가 그대로 적용된다.   ▼ 주변확률질량함수 이때, 확률변수 X의 분포를 X의 주변분포marginal distribution라고 한다.   ▼ 결합확률밀도함수   ▼ 주변확률밀도함수   ▼ 결합누적분포함수 일변량 확률변수의 확률밀도함수와 동일한 방법으로 이변량 확률변수의 결합확률밀도함수를 이용하여 결합누적분포함수joint cumulative distribution function를 구할 수 있다.  ▼ 결합누적분포함수의 성질 이변량 확률변수 X, Y의 결합확률밀도함수를 이용하여 X, Y 각각의 주변확률밀도함수를 구하는 방법과 동일하게 X, Y의 결합누적분포함수 F(x, y)를 적분하는 방법으로 X, Y ..

제5장 확률분포

5.1 이산형 확률분포  1. 이산형 균일분포  ▼ 이산형 균일분포discrete uniform distribution 이산형 균일분포는 확률변수가 취할 수 있는 각 값들이 모두 동일한 확률을 가지는 경우를 말한다.  ▼ 이산형 균일분포의 평균, 분산, 적률생성함수   2. 베르누이분포와 이항분포  ▼ 베르누이분포Bernoulli distribution 두 가지 가능한 결과만을 가지는 시행을 베르누이 시행Bernoulli trial이라고 하며, 이는 이항분포의 기초가 된다. 베르누이 시행으로 나타나는 확률분포를 베르누이분포라고 한다.  ▼ 베르누이분포의 평균, 분산, 적률생성함수     ▼ 이항분포binomial distribution n번의 시행 중에서 성공한 횟수를 확률변수 X로 나타내면 확률변수 X..

제4장 확률변수

4.1 확률변수의 개념  확률변수random variable는 표본공간 내에 있는 각 원소를 하나의 실수값에 대응시키는 함수로 정의된다. 이산형 확률변수discrete random variable | 표본공간이 셀 수 있는 원소로 이루어짐연속형 확률변수continuous random variable | 표본공간이 실선의 어떤 구간 내의 모든 수를 포함함     4.2 이산형 확률분포와 연속형 확률분포  1. 이산형 확률분포 이산형 확률분포에서는 관찰된 각 값에 확률이 부여된다. 이때, 이산형 확률변수가 취할 수 있는 모든 값들과 이에 대응하는 각각의 확률을 계산할 수 있는 식, 표 또는 그래프를 이산형 확률변수의 확률분포probability distribution라 한다.  ▼ 확률질량함수 ▼ 확률질량함..

제3장 확률

3.1 사상과 표본공간  확률실험random experiment | 시행하기 전에는 확실히 예측할 수 없는 결과를 유발하는 행위 또는 과정표본공간sample space | 어떤 실험에서 발생 가능한 모든 단일사상들의 집합사상event | 하나 또는 둘 이상의 단일사상의 집합 사상 A의 여사상complementary event은 사상 A가 발생하지 않는 사상을 말한다.       3.2 확률  확률이란 어떤 사상의 발생 가능성을 숫자로 표현한 값이다.  1. 고전적 확률  고전적 개념에 의한 확률 부여 방법은 간단하지만, 현실세계에서 단일사상이 발생할 가능성이 동일하다는 전제가 만족되기 어려우므로 다른 방법도 고려해야 한다.   2. 상대도수적 확률 이 경우 확률은 실험을 무한히 반복할 경우 얻어지는 그 ..

제2장 자료의 기술

2.1 자료의 종류  1. 범주형 자료 원칙적으로 숫자로 표현될 수 없는 자료를 집단화하여 나타낸 자료를 범주형 자료categorical data 또는 질적 자료qualitative data라 하고, 이는 명목형 자료와 순서형 자료로 나뉜다. 명목형 자료nominal data | 분류만 하여 값을 부여한 자료로 순위가 없는 자료. 분석의 편의상 숫자로 값을 부여하기도 함 (예: 종교, 혈액형 등)순서형 자료ordinal data | 범주형 자료로 생성된 값이 순위order의 개념을 갖는 자료 (예: 평점, 선호도  등)   2. 측정형 자료 각 관측 대상이 되는 자료에 측정 단위를 이용한 측정값이 부여되고, 숫자의 크기가 의미를 갖는 자료를 측정형 자료measurement data 또는 양적 자료quan..