1. 통계분석의 이해
1.통계학의 정의
-
다량의 데이터나 정보를 수집, 정리, 요약하고 분석하는 방법을 연구하는 학문이다.
2.통계학의 유형
(1) 기술통계학(Descriptive Statistics):
-
수집된 자료를 그래프나 표, 몇 가지의 수치로 정리하고 요약하여 자료의 특성을 나타내는 분석법이다.
-
대푯값(평균, 중위수, 최빈수 등), 산포(분포/왜도/첨도 등)를 제시하거나 도식화하는 절차이다.
(2) 추론통계학(Inference Statistics):
-
실제로 관측된 자료를 이용해 모집단의 특성에 대해 추측하는 분석방법이다.
-
표본의 정보로 모집단을 추측하기 위한 절차로 구성
-
모수통계학(Parametric Statistics): 모집단에 분포를 가정하고 분석하는 방법이다.
-
비모수통계학(Non Parametric Statistics): 모집단에 대한 가정 없이 분석하는 방법이다.
3.모집단과 표본
(1) 모집단(Population):
-
통계 대상이 되는 모든 개체에 대한 전체집합으로 모든 관측 값을 가지게 된다.
-
모집단 구성 개체의 한정여부에 따라 유한모집단과 무한모집단으로 분류한다.
(2) 모수(Parameter):
-
모집단의 특성치를 말한다.
-
모평균, 모분산, 모표준편차, 모비율 등이 있다.
(3) 표본(Sample):
-
모집단에서 추출된 관측 값의 부분 집합이다.
(4) 통계량(Statistic):
-
표본의 특성치를 말한다.
-
표본평균, 표본분산, 표본표준편차, 표본비율 등이 있다.
4. 표본추출
-
단순랜덤추출(Random Sampling): 뽑힐 확률이 동일하게 임의로 추출하는 방법이며 복원, 비복원추출이 있다.
-
계통추출(Systematic Sampling): 표본내 임의 위치에서 매 K번째 항목 추출한다.(표본을 임의로 나열해 N/n개씩 n개의 구간으로 나누고 첫 번째 구간에서 하나 뽑은 뒤, 그로부터 K번째에 있는 표본을 선택한다.)
-
층화추출(Stratified Random Sampling): 다른 데이터를 중첩 없이 분할하여 각 층에서 랜덤 추출한다.
-
집락추출(Cluster Sampling): 군집을 구분하고 군집별로 단순 랜덤추출 한다.
5. 통계자료의 형태
-
명목척도 자료: 구분하기 위한 부호로 표현된 자료(성별, 혈액형, 출생지, 학과, 주거형태 등)
-
순서척도(서열척도) 자료: 개체들이 순서를 갖는 자료(선호도, 학년, 만족도, 신용등급 등)
-
구간척도 자료: 구간이나 구간사이의 간격이 의미가 있는 자료(성적, 온도, 지수 등)
-
비율척도 자료: 간격에 대한 비율이 의미를 가지는 자료(연령, 시간, 거리, 무게)
6. 확률변수
(1) 이산확률변수
-
확률변수가 셀 수 있는 값을 취하는 변수
-
0이 아닌, 셀 수 있는 수를 갖는 변수(확률질량함수)
-
이산확률변수가 가지는 확률분포를 이산확률분포라고 한다.
-이산확률분포-
-
베르누이 확률분포: 결과가 2개인 확률분포
-
이항분포: 베르누이 시행을 n번 반복했을 때 k번 성공할 확률, 성공할 확률 p가 0이나 1에 가깝지 않고 n이 충분히 크면 정규분포에 가까워진다.
(2)연속형 확률변수
-
확률변수가 구간 내의 연속적인 값을 취하는 변수(확률밀도함수)
-
연속확률분포는 연속확률변수가 가지는 확률분포이다.
-연속확률분포-
-
정규분포: 평균이 μ이고 표준편차가 σ인 X의 확률밀도함수
-
t-분포: 정규분포의 분산을 확실히 모를 때 대신 사용
-
F-분포: 두 집단간 분산의 동질성 검정
- 균일분포: 모든값이 균일한 값을 갖는 확률분포
7. 추정과 검정
(1) 추정의 개요
-
추정: 표본으로부터 미지의 모수를 추출하는 것, 점추정과 구간추정이 있다.
-
점추정: 모수를 하나의 수치로 추정하는 것이다.(모평균, 모분산, 모비율)
-
-점추정량의 조건: 불편성(한쪽으로 편향되지 않은값), 효율성(분산이 작을수록 좋다), 일치성(표본의 크기가 커지면 모수와 거의 같아진다), 충분성(추정량이 모수에 대해 모든 정보를 제공)-표본평균: 확률 표본의 평균값
-표본분산: 모집단의 분산을 추정하기 위한 추정량
- 구간추정: 모수가 포함될 구간을 추정하는 것
-모평균, 모분산, 모비율에 대한 구간이다.
-분포에 대한 가정이 주어져야하며, 신뢰수준이 주어져야한다.
(2) 가설검정의 개요
-
모집단에 대한 가설 설정학 표본관찰을 통해 가설을 채택할지 여부를 결정하는 방법
- 귀무가설(H0): 비교하는 값과 차이가 없다. 동일하다 등을 기본개념으로 하는 가설
- 대립가설(H1): 뚜렷한 증거가 있을 때 주장하는 귀무가설에 반대되는 가설
- 검정통계량: 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준
- 유의수준(a): 귀무가설이 옳은데도 기각해버릴 확률(제1종 오류를 범할 확률의 최대허용치)
- 기각역: 검정통계량의 분포에서 유의수준 a의 크기에 해당하는 영역, 유의성을 판단하는 기준
- 유의확률: p-value, 유의수준 a가운데 최소값, 유의수준 a보다 작으면 귀무가설 기각
정확한 사실/가설검정 결과 | H0사실이라고 판정 | H0사실이 아니라고 판정 |
H0사실 | 옳은결정 | 제 1종 오류 |
H0사실이 아님 | 제 2종 오류 | 옳은 결정 |
'데이터분석' 카테고리의 다른 글
(데이터분석)로또 번호 분석하기! 많이 나오는 번호는?(python) (0) | 2019.09.02 |
---|---|
(데이터분석)로또 번호 웹크롤링 하기(python3) (0) | 2019.08.31 |
네이버 키워드 도구 (0) | 2019.08.28 |
버거지수 따라하기(전국 맥도날드 주소 크롤링) (0) | 2019.08.12 |
Numpy 기초(python3, 데이터분석) (0) | 2019.08.11 |