전체 글 56

제4장 확률변수

4.1 확률변수의 개념  확률변수random variable는 표본공간 내에 있는 각 원소를 하나의 실수값에 대응시키는 함수로 정의된다. 이산형 확률변수discrete random variable | 표본공간이 셀 수 있는 원소로 이루어짐연속형 확률변수continuous random variable | 표본공간이 실선의 어떤 구간 내의 모든 수를 포함함     4.2 이산형 확률분포와 연속형 확률분포  1. 이산형 확률분포 이산형 확률분포에서는 관찰된 각 값에 확률이 부여된다. 이때, 이산형 확률변수가 취할 수 있는 모든 값들과 이에 대응하는 각각의 확률을 계산할 수 있는 식, 표 또는 그래프를 이산형 확률변수의 확률분포probability distribution라 한다.  ▼ 확률질량함수 ▼ 확률질량함..

제3장 확률

3.1 사상과 표본공간  확률실험random experiment | 시행하기 전에는 확실히 예측할 수 없는 결과를 유발하는 행위 또는 과정표본공간sample space | 어떤 실험에서 발생 가능한 모든 단일사상들의 집합사상event | 하나 또는 둘 이상의 단일사상의 집합 사상 A의 여사상complementary event은 사상 A가 발생하지 않는 사상을 말한다.       3.2 확률  확률이란 어떤 사상의 발생 가능성을 숫자로 표현한 값이다.  1. 고전적 확률  고전적 개념에 의한 확률 부여 방법은 간단하지만, 현실세계에서 단일사상이 발생할 가능성이 동일하다는 전제가 만족되기 어려우므로 다른 방법도 고려해야 한다.   2. 상대도수적 확률 이 경우 확률은 실험을 무한히 반복할 경우 얻어지는 그 ..

제2장 자료의 기술

2.1 자료의 종류  1. 범주형 자료 원칙적으로 숫자로 표현될 수 없는 자료를 집단화하여 나타낸 자료를 범주형 자료categorical data 또는 질적 자료qualitative data라 하고, 이는 명목형 자료와 순서형 자료로 나뉜다. 명목형 자료nominal data | 분류만 하여 값을 부여한 자료로 순위가 없는 자료. 분석의 편의상 숫자로 값을 부여하기도 함 (예: 종교, 혈액형 등)순서형 자료ordinal data | 범주형 자료로 생성된 값이 순위order의 개념을 갖는 자료 (예: 평점, 선호도  등)   2. 측정형 자료 각 관측 대상이 되는 자료에 측정 단위를 이용한 측정값이 부여되고, 숫자의 크기가 의미를 갖는 자료를 측정형 자료measurement data 또는 양적 자료quan..

제1장 서론

1.1 통계학이란  통계학은 관심 또는 연구대상이 되는 집단(모집단)의 특성을 파악하기 위해 모집단으로부터 일부의 자료(표본)를 수집, 정리, 요약, 분석하여 표본의 특성을 파악하고 이를 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문이다. 기술 통계학Descriptive statistics | 수집된 자료의 특성을 쉽게 파악할 수 있도록 자료를 표나 그림 또는 특성값을 통하여 정리, 요약하는 방법을 다루는 분야 (표나 그래프를 통한 시각적 표현, 통계량을 이용해 수치 요약)추론 통계학Inferential statistics | 모집단으로부터 추출된 표본의 정보를 사용하여 모집단의 특성을 파악하는 분야 (추정 및 가설검정)  통계학을 방법론적인 측면에서 살펴보면 연역적 방법과 귀납적 ..

KNN (K-Nearest Neighbor)

1. KNN Regression Nonparametric method | true f에 대한 specific form을 가정하지 않음 idea | 비슷한 x값(input)이 비슷한 y값(output)을 도출한다. 활용 | (1) true f가 nonlinear함 (2) 해석보다도 예측을 하고자 함 (3) 차원이 낮을 때 (1) 과정 주어진 관찰값(x0)에 대해 y를 예측할 때, K 결정 유클리디안 거리를 이용해 x0과 가장 가까운 K개의 point를 찾음 (이때, x 공간을 기준으로 함) 찾은 K개 point의 y값의 평균을 계산 (2) Tunning parameter K 이때, K는 smoothness의 수준을 결정하는 tunning parameter이다. 2. KNN Classification Non..

데이터 마이닝

1. 데이터 마이닝Data Mining (1) 정의 데이터 마이닝 | 대용량의 데이터에서 유용한 정보와 패턴을 추출하는 기법 (2) 데이터 마이닝 과정 Exploration | 데이터를 분석할 수 있는 형태로 전환 Pattern Identification | 데이터 마이닝 기술을 이용해 데이터로부터 패턴 인식 Deployment | 밝혀낸 패턴들로 예측값 등 결과 산출 2. Statistical Learning (1) 지도 학습Supervised Learning x 변수를 기반으로 y 변수 예측 명확한 목표와 지표(y)가 존재함 true f를 추정하는 방법의 집합. f를 추정함으로써 (새로운 관찰값에 대한) y를 예측하고, x와 y 간의 관계 해석 ◾ Reducible Error와 Irreducible ..