ADsP/3과목

[3과목] 3-4. 통계분석 (1)통계분석 이해

RECORD WHO (레코드후) 2022. 9. 25. 15:22

1. 통계란? 

- 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현

 

2. 통계 자료의 획득 방법

1) 총조사/ 전수조사 census

- 대상 집단 모두를 조사하는데 많은 비용과 시간이 소요되므로, 특별한 경우를 제외하고는 사용 안함 (인구주택 총조사) 

2) 표본조사

- 대부분의 설문조사는 표본조사로 진행되며, 모집단에서 샘플을 추출하여 진행하는 조사

- 표본조사 시 모집단의 정의, 표본크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야! 

모집단 population 조사하려는 대상 집단 전체
원소 element 모집단을 구성하는 개체
표본 sample 조사를 위해 추출한 모집단의 일부 원소
모수 parameter -표본 관측에 의해 구하고자 하는 모집단에 대한 정보 
-모집단의 특성값을 의미하는데, 모수는 실질적으로 파악이 어려움 
(ex. 모집단의 평균값) 

3) 표본추출 방법 (중요!)

- 표본조사에서는 '모집단을 대표할 수 있는 표본 추출'이 매우 중요

- 표본추출 방법에 따라 분석결과의 해석에 큰 차이 발생 

⒜ 확률적 표본추출방법 : 표본 뽑을 때 모든 표본이 추출될 확률이 동일한 방법 

① 단순랜덤 추출법 Simple random sampling

- 각 샘플에 번호를 부여해 임의의 n개를 추출하는 방법 

 

② 계통 추출법 Systematic sampling 

- 번호를 부여한 샘플을 나영하여 5(k)개씩 3(n)개의 구간으로 나눈 뒤 첫 구간에서 하나를 임의로 선택한 후, 해당 위치에서 매 k번째 항목을 추출하는 것 

 

③ 집락추출법 cluster random sampling 

- 군집을 구분하고 군집별로 단순랜덤 추출법을 수행한 후 모든 자료를 활용하거나 샘플링

- 지역표본추출이나 다단계표본추출처럼 무리 구분이 명확할 때, 무리를 나누어서 무리 안에서 랜덤 추출을 진행

- 예) A중학교 3학년 학생들을 조사한다고 할 때, 1반부터 10반까지 전체를 조사하지 않고, 2반과 8반만 조사

 

④ 층화추출법 stratified random sampling

- 각 샘플의 특징이 같은 것들로 묶어서 층을 나눈 다음에, 각 층에서 샘플을 추출

- 같은 것으로 묶는 절차가 있기 때문에 집단 내에서 샘플들은 성질이 동일하고, 각 집단 간에는 서로 다른 성격

- 예) 연령대별로 조사하는 경우, 각 연령대를 개별되는 층으로 나눈 뒤 각 연령대에서 n개의 샘플을 추출

 

* 더 쉬운 이미지 이해는 해당 링크 블로그에서 가능

https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=sgjjojo&logNo=221248955570 

 

확률표본추출(확률표집) 방법 쉽게 이해하기

오늘은 사회조사분석사나 직업상담사 등 조사 시 표본을 추출해야 할 때 모집단에서 확률적으로 표집 하는 ...

blog.naver.com

 

4) 측정 measurement (중요!!)

① 개념: 자료수집을 위해 반드시 필요한 과정으로, 자료의 형태를 결정

② 측정 방법 (=척도) 

질적척도
(=범주형자료)
: 숫자들의 크기 차이가 계산 되지 않는 척도
명목척도 측정 대상이 어느 집단에 속하는 지 분류할 때  성별, 출생지 구분
순서(서열)척도 서열관계를 관측하는 척도 만족도, 선호도, 학년, 신용등급
양적척도 
(=수치형자료)
: 숫자들의 크기 차이를 계산 가능
구간(등간)척도 측정 대상이 갖는 속성의 양을 측정
절대적 크기는 측정 불가능
+/-는 가능하지만 곱하기 나누기는 불가
구간이나 구간 사이의 간격이 의미 있는 자료 
절대적 0이 없음

온도, 지수 
비율척도  간격에 대한 비율이 의미를 갖는 자료
절대적 기준인 0이 존재
사칙연산이 가능
무게, 나이, 시간, 거리

 

3. 통계분석

- 특정 집단이나 불확실한 현상을 대상으로 자료 수집 후 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정 의미

1) 기술통계 descriptive statistic

① 주관이 섞일 수 있는 과정을 배제한 후 통계집단들의 여러 특성을 '수량화' 하여 '객관적인 데이터로 나타내는' 방법론

② sample(표본)에 대한 특성인 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구하는 것을 의미 

2) 추측통계 (=통계적 추론) inference statistic

① 표본을 통해 모집단을 추정하는 것을 의미 

② 종류

  ⓐ 모수 추정: 표본집단으로부터 모수(모집단의 특성/ 평균, 분산 등)를 분석해 모집단 추론

  ⓑ 가설검정: 대상집단에 특정 가설을 설정 후 그 가설의 진위여부를 결정 

  ⓒ 예측: 미래의 불확실성을 해결해 효율적 의사결정에 활용 (ex. 회귀분석, 시계열분석 등의 방법이 포함) 

 

4. 확률 & 확률분포

1) 확률 

① 표본공간 sample space : 어떤 실험을 할 때 나타날 수 있는 모든 결과들의 집합

② 사건 event : 관찰자가 관심 있는 사건으로, 표본공간의 부분집합 

③ 원소 element : 나타날 수 있는 개별의 결과들 의미 

④ 확률변수 random variable 

- 특정 값이 나타날 가능성이 확률적으로 주어지는 변수 

- 이산형 확률변수 : x가 갖는 값이 '정수형' 일 때 

- 연속형 확률변수: x가 갖는 값이 '실수' 일 때 

 

2) 확률분포

이산형 확률변수 (확률질량함수: 0이 아닌 확률값을 갖는 확률변수를 셀 수 있는 경우) 

베르누이 확률분포 - 결과가 2개만 나오는 경우 ( 동전 던지기, 시험 합불여부)
* 추신수 선수가 안타를 칠 확률은 베르누이 분포를 따름 
(안타를 치는 사건을 x=1이라 할 때, 안타를 칠 확률은 타율로 적용 가능) 
이항분포 베르누이 시행을 n번 반복했을 때 k번 성공할 확률 
* 추신수 선수가 오늘 경기에서 5번타석에 들어와 3번 안타를 칠 확률
(n=5, k=3, 안타 칠 확률 P(x) = 타율로 적용 가능) 
기하분포 - 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률 
*추신수 선수가 오늘 경기에 5번 타석에 들어와 3번째 타석에서 안타를 칠 확률 
(1-p) = q , p(X=5) = q*q*q*q*p= p*q⁴ 
다항분포 -이상분포의 확장버전, 3가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률분포
* 시험에 a등급은 3명, b등급은 2명, c등급은 4명이 응시할 확률 
포아송분포 범위, 공간, 시간내에서 발생하는 사건의 발생횟수에 따른 확률분포 
* 책에 오타가 5페이지 당 10개씩 나올 때, 한 페이지에 오타가 3개 나올 확률 
* 추신수가 최근 5경기에서 10개 홈런을 때렸을 때, 오늘 경기에서 홈런을 못 칠 확률 

연속형 확률변수 (확률밀도함수: 가능한 값이 어느 특정 실수 구간 전체에 해당하는 확률변수) 

균일분포 모든 확률변수가 a, b라는 두 구간 사이에서 균일한 확률을 갖음 (다트의 확률분포) 
정규분포 - 평균이 m이고, 표준편차가 σ인 X의 확률밀도함수
- 표준편차(σ)가 클 경우, 퍼져보이는 그래프가 나타남 
*표준 정규분포 = 평균이 0, 표준편차가 1인 
지수분포 - 어떤 사건이 발생할 때까지 경과시간에 대한 연속확률분포
* 전자레인지의 수명시간, 정류소에서 버스가 올 시간 
t분포 - 두 집단의 평균이 동일한 지 알고자 할 때 사용 
- 표준정규분포처럼, 평균값 0을 중심으로 좌우 동일한 분포 
x ² 분포 - 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검증
- 두 집단 간의 '동질성 검정' 에 활용 
F 분포 - 두 집단간 분산의 '동일성' 검정
- 확률변수는 항상 양의 값만 갖고, x ² 분포와 달리 자유도(r)가 2개

 

5. 추정과 가설검정

1) 추정 :  표본으로부터 모수를 추측하는 것 

① 점추정 

- 모수가 특정한 값일 것이라고 추정하는 것  > 통계량 (표본평균, 중위수, 최빈값)을 토대로 모수 추정

- 점추정량의 조건

불편성 unbiasedness : 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없다
효율성 efficiency : 추정량의 분산이 작을수록 좋다 
일치성 consistency : 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아짐 
충족성 sufficient: 추정량은 모수데 대하여 모든 정보를 제공 

*최소분산 표본추정량 (=불편성, 효율성) >> 표본의 평균 
- 표본평균 : 모집단의 평균(모평균) 추정을 위한 추정량으로 확률표본의 평균값 

② 구간추정 

- 신뢰수준에 따라 모수가 특정한 구간에 있을 것이라고 선언하는 것 

- 항상 추정량의 분포에 대한 전제가 주어져야하고, 신뢰수준(대부분 90,95,99%) 이 주어져야 계산 가능 

- 모분산을 아는 경우/ 모르는 경우에 따라 계산 방법 다름

모분산 아는 경우 모분산 모르는 경우
(표준)정규분포 / 분자에 (σ) t분포 / 분자에 (S)
항상 중심은 0이고, 분산은 1로 고정
즉 모양이 고정됨 
자유도(표본의크기-1)에 따라 그래프 모양이 완만~뾰족 다양
자유도가 29가 될 때는 표준정규분포랑 모양세가 일치

2) 가설검정

① 모집단에 대한 어떤 가설을 설정한 뒤, 표본관찰을 통해 그 가설의 채택여부를 결정하는 방법 

② 주요 용어

귀무가설  H0 - 테스트를 하는 가설
- 주로 이미 알려지거나 예전에 검증된 가설
- 가설 검증 시 귀무, 대립가설 둘 다 test 하는게 아니라 항상 귀무가설만 검증! 
둘은 한 쌍
대립가설 H1 - 귀무가설과 상반되는 관계를 가진 한 쌍의 가설 (귀무가 T면, 대립은 당연히F인 관계) 
- 주관적 의견이 담기거나 뚜렷한 증거가 있을 때 주장하는 가설 
검정통계량 T(x) - 관찰된 표본으로부터 구하는 통계량, 가설의 진위 판단 기준  
유의수준 a - 귀무가설을 기각하게 되는 확률의 크기 (주로 5%가 제일 많이 사용됨) 
- 귀무가설이 옳은데도 이를 기각할 확률의 크기 (제 1종오류) 
 
기각역  C - 귀무가설이 옳다는 전제 하에 구한 검정통계량의 분포에서 확률이 유의수준인 부분 
(<-> 채택역) 
+/- 1.96

③ 가설검정 단계 

  ⓐ 검정하고자 하는 목적에 따라 귀무가설(H0)과 대립가설(H1)을 설정

  ⓑ 검정통계량 T(x) 을 구하고, 그 분포를 구함 

  ⓒ 유의수준(a)을 결정하고, 검정통계량의 분포에서 대립가설의 형태에 따라 유의수준에 해당하는 기각역(C) 설정

  ⓓ 귀무가설이 옳다는 전제하에 표본관찰에 의한 검정통계량을 구함

  ⓔ 검정통계량의 값이 기각역에 속하는지를 판단하여, 기각역에 속하면 귀무가설 기각/ 속하지 않으면 귀무가설 채택 

④ 오류 

- 두가지 오류는 서로 상충관계

- 일반적으로 제 1종오류 크기를 0.1,0.05,0.001 등으로 고정 후 제 2종오류가 최소가 되도록 기각역을 설정 

  귀무가설(H0)이 사실이라 판정 귀무가설(H0)이 거짓이라 판정
하지만 귀무가설(H0)이 사실 옳은 결정 제1종오류(a) : 얘를 줄이는 게 제일 중요 
하지만 귀무가설(H0)이 거짓임 제 2종 오류(B) 옳은결정 

 

 6. 비모수 검정

- 모집단의 모수에 대한 검정은 '모수적 검정'과 '비모수적 검정'으로 구분됨

모수적방법 비모수적방법
모집단의 분포에 대한 가정 후 검정 실시 모집단에 아무 제약을 가하지 않고 검정 실시
표본평균, 표본분산 등을 이용 가정된 분포가 없기 때문에, 분포의 형태만 설정 후 
관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정