📊 통계/🌱 통계학원론

제9장 구간추정

꽁광부 2024. 8. 10. 01:04

점추정량이 불편성, 효율성, 일치성을 만족해 바람직한 추정량이 되더라도 점추정량으로 얻은 점추정값은 모수를 중심으로 확률적으로 분포된 확률변수의 한 값일 뿐이기 때문에, 점추정값이 모수와 정확히 일치한다고 단정 지을 수 없다.

 

따라서 더욱 타당한 추정을 하기 위해 하나의 점추정값으로 모수를 추정하는 것이 아니라 일정한 신뢰수준confidence level 하에서 모수가 포함되어 있으리라고 기대되는 구간으로 모수를 추정하게 된다. 이것을 구간추정interval estimation이라 하고 추정된 구간을 신뢰구간confidence interval이라고 한다.

 

 

 

9.1 신뢰구간

 

 

▼ 신뢰구간

 

여기서 100(1 - alpha)%를 구간추정의 신뢰 수준이라고 하고 보통 95%를 주로 사용한다. 신뢰 수준 95%의 의미는 100번 중 95번은 신뢰구간이 모수를 포함하고 있다는 것이고, 이는 95번은 올바른 구간추정이 된다는 의미이다. 따라서 우리가 계산한 신뢰구간은 100번 중 95번은 모수를 포함하는 다수의 신뢰구간 중 하나이다. 일반적으로 신뢰구간이라고 하면 위의 정의를 만족시키면서 구간의 길이가 최소인 것을 말한다.

 

 

▼ 신뢰한계, 표본오차, 신뢰계수

 

 

 

 

 

 

9.2 모평균의 구간추정

 

 

1. 모분산을 아는 경우

모평균 mu에 대한 100(1 - alpha)% 신뢰구간은 mu의 불편추정량인 표본평균의 분포에서 두 점 사이의 면적이 100(1 - alpha)% 가 되는 구간을 의미한다.

 

 

표본크기 n이 커지면 표본평균의 표준오차는 작아지고 신뢰구간은 짧아진다. 즉, 표본크기가 커지면 그만큼 정확도가 높아진다는 것을 의미한다. 만약 주어진 표본크기에서 신뢰도를 높이려면 구간의 길이가 더 길어져야 한다.

 

 

 

2. 모분산을 모르는 경우

 

1) 모집단이 정규분포를 따르거나 표본크기 n이 클 경우에는 모평균의 신뢰구간을 추정할 때 중심극한정리에 의해 표본평균의 분포가 정규분포를 따른다는 것을 이용한다. 그러나 표본평균의 분포가 정규분포라는 것을 알지만 정규분포의 모수인 모분산을 모르기 때문에 정규분포의 분위수인 z를 신뢰계수로 사용할 수 없다. 이 경우 모분산 대신 표본분산을 사용하여 t분포를 통해 신뢰계수를 구한다.

 

 

위의 정리를 이용하면 모집단이 정규분포를 따르거나 표본크기 n이 클 경우에는 모평균의 신뢰구간을 추정할 수 있다. 이때 사용하는 표본분산은 모분산의 불편추정량이자 일치추정량이다.

 

t분포는 정규분포처럼 평균에 대해 좌우대칭의 종모양이나 중앙의 밀도는 더 낮고 더 넓게 퍼진 분포 형태를 가진다. 즉, t분포의 평균은 표준정규분포의 평균과 같이 0이나, t분포의 분산은 자유도 / (자유도 - 2)로 1보다 커서 표준정규분포의 분산보다 크다. 그러나 표본크기가 커짐에 따라 t분포는 정규분포에 접근해 간다.

 

 

2) 모집단이 정규분포를 따르지 않고 표본크기가 작으며 모분산이 알려져 있지 않은 경우 표본분산은 모분산의 좋은 추정량이 될 수 없다. 따라서 표본평균의 분포로 정규분포 또는 t분포를 사용할 수 없으므로 일반적인 표본이론으로 구간추정을 할 수 없다. 이때 비모수적 방법을 통해 해결한다.

 

 

 

자유도란 자유롭게 값을 가질 수 있는 관측치의 개수이다. 표본분산을 계산할 때 편차제곱합을 n - 1로 나누었는데, 이것은 표본분산을 계산할 때 n - 1개의 정보만을 사용함을 의미한다. 따라서 모분산 대신 표본분산을 사용하는 t분포의 자유도는 n - 1이 된다.

 

 

 

 

 

 

 

9.3 모평균 차의 구간추정

 

 

1. 독립적인 두 표본

 

1) 모분산을 알 경우

 

 

 

▼ 모분산을 알 경우

 

 

 

2) 모분산을 모르는 경우

 

 

 

▼ 등분산 가정

 

 

▼ 이분산 가정

 

 

 

 

2. 대응표본

 

관찰값들이 짝을 이루고 있는 표본을 대응표본paired sample이라고 한다. 대응표본의 차이를 분석하기 위해서는 관찰값들 각각의 차이 D를 계산하여 단일표본으로 생각하면 된다.

 

 

▼ 대응표본의 신뢰구간

 

 

 

 

 

 

9.4 모비율의 구간추정

 

 

▼ 모비율의 신뢰구간

 

 

9.5 모비율 차의 구간추정

 

 

▼ 모비율 차의 신뢰구간

 

 

 

 

 

 

9.6 모분산의 구간추정

 

 

▼ 모분산의 신뢰구간

 

 

 

 

 

 

9.7 허용오차 및 표본크기의 결정

 

 

추정의 정확도는 표본이 허용하는 오차를 의미한다.

 

 

표본오차는 표본크기 n에 관한 함수이므로 허용오차로 표본오차를 미리 결정하면 우리가 원하는 표본크기의 최솟값을 구할 수 있다.

 


 

'📊 통계 > 🌱 통계학원론' 카테고리의 다른 글

제11장 범주형 자료분석  (2) 2024.09.02
제10장 가설검정  (0) 2024.08.27
제8장 점추정  (0) 2024.08.06
제7장 표본분포  (0) 2024.07.31
제6장 이변량 확률변수  (3) 2024.07.23