1. 통계분석의 이해

 

1.통계학의 정의

  • 다량의 데이터나 정보를 수집, 정리, 요약하고 분석하는 방법을 연구하는 학문이다.

2.통계학의 유형

(1) 기술통계학(Descriptive Statistics):

  • 수집된 자료를 그래프나 표, 몇 가지의 수치로 정리하고 요약하여 자료의 특성을 나타내는 분석법이다.

  • 대푯값(평균, 중위수, 최빈수 등), 산포(분포/왜도/첨도 등)를 제시하거나 도식화하는 절차이다.

(2) 추론통계학(Inference Statistics):

  • 실제로 관측된 자료를 이용해 모집단의 특성에 대해 추측하는 분석방법이다.

  • 표본의 정보로 모집단을 추측하기 위한 절차로 구성

  • 모수통계학(Parametric Statistics): 모집단에 분포를 가정하고 분석하는 방법이다.

  • 비모수통계학(Non Parametric Statistics): 모집단에 대한 가정 없이 분석하는 방법이다.

3.모집단과 표본

(1) 모집단(Population):

  • 통계 대상이 되는 모든 개체에 대한 전체집합으로 모든 관측 값을 가지게 된다.

  • 모집단 구성 개체의 한정여부에 따라 유한모집단과 무한모집단으로 분류한다.

(2) 모수(Parameter):

  • 모집단의 특성치를 말한다.

  • 모평균, 모분산, 모표준편차, 모비율 등이 있다.

(3) 표본(Sample):

  • 모집단에서 추출된 관측 값의 부분 집합이다.

(4) 통계량(Statistic):

  • 표본의 특성치를 말한다.

  • 표본평균, 표본분산, 표본표준편차, 표본비율 등이 있다.

 

4. 표본추출

  • 단순랜덤추출(Random Sampling): 뽑힐 확률이 동일하게 임의로 추출하는 방법이며 복원, 비복원추출이 있다.

  • 계통추출(Systematic Sampling): 표본내 임의 위치에서 매 K번째 항목 추출한다.(표본을 임의로 나열해 N/n개씩 n개의 구간으로 나누고 첫 번째 구간에서 하나 뽑은 뒤, 그로부터 K번째에 있는 표본을 선택한다.)

  • 층화추출(Stratified Random Sampling): 다른 데이터를 중첩 없이 분할하여 각 층에서 랜덤 추출한다.

  • 집락추출(Cluster Sampling): 군집을 구분하고 군집별로 단순 랜덤추출 한다.

 

5. 통계자료의 형태

  • 명목척도 자료: 구분하기 위한 부호로 표현된 자료(성별, 혈액형, 출생지, 학과, 주거형태 등)

  • 순서척도(서열척도) 자료: 개체들이 순서를 갖는 자료(선호도, 학년, 만족도, 신용등급 등)

  • 구간척도 자료: 구간이나 구간사이의 간격이 의미가 있는 자료(성적, 온도, 지수 등)

  • 비율척도 자료: 간격에 대한 비율이 의미를 가지는 자료(연령, 시간, 거리, 무게)

 

6. 확률변수

(1) 이산확률변수

  • 확률변수가 셀 수 있는 값을 취하는 변수

  • 0이 아닌, 셀 수 있는 수를 갖는 변수(확률질량함수)

  • 이산확률변수가 가지는 확률분포를 이산확률분포라고 한다.

     -이산확률분포-

  • 베르누이 확률분포: 결과가 2개인 확률분포

  • 이항분포: 베르누이 시행을 n번 반복했을 때 k번 성공할 확률, 성공할 확률 p가 0이나 1에 가깝지 않고 n이 충분히 크면 정규분포에 가까워진다.

(2)연속형 확률변수

  • 확률변수가 구간 내의 연속적인 값을 취하는 변수(확률밀도함수)

  • 연속확률분포는 연속확률변수가 가지는 확률분포이다.

 

     -연속확률분포-

  • 정규분포: 평균이 μ이고 표준편차가 σ인 X의 확률밀도함수

  • t-분포: 정규분포의 분산을 확실히 모를 때 대신 사용

  • F-분포: 두 집단간 분산의 동질성 검정

  • 균일분포: 모든값이 균일한 값을 갖는 확률분포

7. 추정과 검정

(1) 추정의 개요

  • 추정: 표본으로부터 미지의 모수를 추출하는 것, 점추정과 구간추정이 있다.

  • 점추정: 모수를 하나의 수치로 추정하는 것이다.(모평균, 모분산, 모비율)

  • -점추정량의 조건: 불편성(한쪽으로 편향되지 않은값), 효율성(분산이 작을수록 좋다), 일치성(표본의 크기가 커지면 모수와 거의 같아진다), 충분성(추정량이 모수에 대해 모든 정보를 제공)-표본평균: 확률 표본의 평균값

      -표본분산: 모집단의 분산을 추정하기 위한 추정량

  •  구간추정: 모수가 포함될 구간을 추정하는 것

        -모평균, 모분산, 모비율에 대한 구간이다.

        -분포에 대한 가정이 주어져야하며, 신뢰수준이 주어져야한다.

 

(2) 가설검정의 개요

  • 모집단에 대한 가설 설정학 표본관찰을 통해 가설을 채택할지 여부를 결정하는 방법

  • 귀무가설(H0): 비교하는 값과 차이가 없다. 동일하다 등을 기본개념으로 하는 가설
  • 대립가설(H1): 뚜렷한 증거가 있을 때 주장하는 귀무가설에 반대되는 가설
  • 검정통계량: 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준
  • 유의수준(a): 귀무가설이 옳은데도 기각해버릴 확률(제1종 오류를 범할 확률의 최대허용치)
  • 기각역: 검정통계량의 분포에서 유의수준 a의 크기에 해당하는 영역, 유의성을 판단하는 기준
  • 유의확률: p-value, 유의수준 a가운데 최소값, 유의수준 a보다 작으면 귀무가설 기각
정확한 사실/가설검정 결과 H0사실이라고 판정 H0사실이 아니라고 판정
H0사실 옳은결정 제 1종 오류
H0사실이 아님 제 2종 오류 옳은 결정

 

+ Recent posts