1. 통계란?
- 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현
2. 통계 자료의 획득 방법
1) 총조사/ 전수조사 census
- 대상 집단 모두를 조사하는데 많은 비용과 시간이 소요되므로, 특별한 경우를 제외하고는 사용 안함 (인구주택 총조사)
2) 표본조사
- 대부분의 설문조사는 표본조사로 진행되며, 모집단에서 샘플을 추출하여 진행하는 조사
- 표본조사 시 모집단의 정의, 표본크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야!
모집단 population | 조사하려는 대상 집단 전체 |
원소 element | 모집단을 구성하는 개체 |
표본 sample | 조사를 위해 추출한 모집단의 일부 원소 |
모수 parameter | -표본 관측에 의해 구하고자 하는 모집단에 대한 정보 -모집단의 특성값을 의미하는데, 모수는 실질적으로 파악이 어려움 (ex. 모집단의 평균값) |
3) 표본추출 방법 (중요!)
- 표본조사에서는 '모집단을 대표할 수 있는 표본 추출'이 매우 중요
- 표본추출 방법에 따라 분석결과의 해석에 큰 차이 발생
⒜ 확률적 표본추출방법 : 표본 뽑을 때 모든 표본이 추출될 확률이 동일한 방법
① 단순랜덤 추출법 Simple random sampling
- 각 샘플에 번호를 부여해 임의의 n개를 추출하는 방법
② 계통 추출법 Systematic sampling
- 번호를 부여한 샘플을 나영하여 5(k)개씩 3(n)개의 구간으로 나눈 뒤 첫 구간에서 하나를 임의로 선택한 후, 해당 위치에서 매 k번째 항목을 추출하는 것
③ 집락추출법 cluster random sampling
- 군집을 구분하고 군집별로 단순랜덤 추출법을 수행한 후 모든 자료를 활용하거나 샘플링
- 지역표본추출이나 다단계표본추출처럼 무리 구분이 명확할 때, 무리를 나누어서 무리 안에서 랜덤 추출을 진행
- 예) A중학교 3학년 학생들을 조사한다고 할 때, 1반부터 10반까지 전체를 조사하지 않고, 2반과 8반만 조사
④ 층화추출법 stratified random sampling
- 각 샘플의 특징이 같은 것들로 묶어서 층을 나눈 다음에, 각 층에서 샘플을 추출
- 같은 것으로 묶는 절차가 있기 때문에 집단 내에서 샘플들은 성질이 동일하고, 각 집단 간에는 서로 다른 성격
- 예) 연령대별로 조사하는 경우, 각 연령대를 개별되는 층으로 나눈 뒤 각 연령대에서 n개의 샘플을 추출
* 더 쉬운 이미지 이해는 해당 링크 블로그에서 가능
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=sgjjojo&logNo=221248955570
확률표본추출(확률표집) 방법 쉽게 이해하기
오늘은 사회조사분석사나 직업상담사 등 조사 시 표본을 추출해야 할 때 모집단에서 확률적으로 표집 하는 ...
blog.naver.com
4) 측정 measurement (중요!!)
① 개념: 자료수집을 위해 반드시 필요한 과정으로, 자료의 형태를 결정
② 측정 방법 (=척도)
질적척도 (=범주형자료) : 숫자들의 크기 차이가 계산 되지 않는 척도 |
명목척도 | 측정 대상이 어느 집단에 속하는 지 분류할 때 | 성별, 출생지 구분 |
순서(서열)척도 | 서열관계를 관측하는 척도 | 만족도, 선호도, 학년, 신용등급 | |
양적척도 (=수치형자료) : 숫자들의 크기 차이를 계산 가능 |
구간(등간)척도 | 측정 대상이 갖는 속성의 양을 측정 절대적 크기는 측정 불가능 +/-는 가능하지만 곱하기 나누기는 불가 구간이나 구간 사이의 간격이 의미 있는 자료 절대적 0이 없음 |
온도, 지수 |
비율척도 | 간격에 대한 비율이 의미를 갖는 자료 절대적 기준인 0이 존재 사칙연산이 가능 |
무게, 나이, 시간, 거리 |
3. 통계분석
- 특정 집단이나 불확실한 현상을 대상으로 자료 수집 후 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정 의미
1) 기술통계 descriptive statistic
① 주관이 섞일 수 있는 과정을 배제한 후 통계집단들의 여러 특성을 '수량화' 하여 '객관적인 데이터로 나타내는' 방법론
② sample(표본)에 대한 특성인 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구하는 것을 의미
2) 추측통계 (=통계적 추론) inference statistic
① 표본을 통해 모집단을 추정하는 것을 의미
② 종류
ⓐ 모수 추정: 표본집단으로부터 모수(모집단의 특성/ 평균, 분산 등)를 분석해 모집단 추론
ⓑ 가설검정: 대상집단에 특정 가설을 설정 후 그 가설의 진위여부를 결정
ⓒ 예측: 미래의 불확실성을 해결해 효율적 의사결정에 활용 (ex. 회귀분석, 시계열분석 등의 방법이 포함)
4. 확률 & 확률분포
1) 확률
① 표본공간 sample space : 어떤 실험을 할 때 나타날 수 있는 모든 결과들의 집합
② 사건 event : 관찰자가 관심 있는 사건으로, 표본공간의 부분집합
③ 원소 element : 나타날 수 있는 개별의 결과들 의미
④ 확률변수 random variable
- 특정 값이 나타날 가능성이 확률적으로 주어지는 변수
- 이산형 확률변수 : x가 갖는 값이 '정수형' 일 때
- 연속형 확률변수: x가 갖는 값이 '실수' 일 때
2) 확률분포
① 이산형 확률변수 (확률질량함수: 0이 아닌 확률값을 갖는 확률변수를 셀 수 있는 경우)
베르누이 확률분포 | - 결과가 2개만 나오는 경우 ( 동전 던지기, 시험 합불여부) * 추신수 선수가 안타를 칠 확률은 베르누이 분포를 따름 (안타를 치는 사건을 x=1이라 할 때, 안타를 칠 확률은 타율로 적용 가능) |
이항분포 | 베르누이 시행을 n번 반복했을 때 k번 성공할 확률 * 추신수 선수가 오늘 경기에서 5번타석에 들어와 3번 안타를 칠 확률 (n=5, k=3, 안타 칠 확률 P(x) = 타율로 적용 가능) |
기하분포 | - 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률 *추신수 선수가 오늘 경기에 5번 타석에 들어와 3번째 타석에서 안타를 칠 확률 (1-p) = q , p(X=5) = q*q*q*q*p= p*q⁴ |
다항분포 | -이상분포의 확장버전, 3가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률분포 * 시험에 a등급은 3명, b등급은 2명, c등급은 4명이 응시할 확률 |
포아송분포 | 범위, 공간, 시간내에서 발생하는 사건의 발생횟수에 따른 확률분포 * 책에 오타가 5페이지 당 10개씩 나올 때, 한 페이지에 오타가 3개 나올 확률 * 추신수가 최근 5경기에서 10개 홈런을 때렸을 때, 오늘 경기에서 홈런을 못 칠 확률 |
② 연속형 확률변수 (확률밀도함수: 가능한 값이 어느 특정 실수 구간 전체에 해당하는 확률변수)
균일분포 | 모든 확률변수가 a, b라는 두 구간 사이에서 균일한 확률을 갖음 (다트의 확률분포) |
정규분포 | - 평균이 m이고, 표준편차가 σ인 X의 확률밀도함수 - 표준편차(σ)가 클 경우, 퍼져보이는 그래프가 나타남 *표준 정규분포 = 평균이 0, 표준편차가 1인 |
지수분포 | - 어떤 사건이 발생할 때까지 경과시간에 대한 연속확률분포 * 전자레인지의 수명시간, 정류소에서 버스가 올 시간 |
t분포 | - 두 집단의 평균이 동일한 지 알고자 할 때 사용 - 표준정규분포처럼, 평균값 0을 중심으로 좌우 동일한 분포 |
x ² 분포 | - 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검증 - 두 집단 간의 '동질성 검정' 에 활용 |
F 분포 | - 두 집단간 분산의 '동일성' 검정 - 확률변수는 항상 양의 값만 갖고, x ² 분포와 달리 자유도(r)가 2개 |
5. 추정과 가설검정
1) 추정 : 표본으로부터 모수를 추측하는 것
① 점추정
- 모수가 특정한 값일 것이라고 추정하는 것 > 통계량 (표본평균, 중위수, 최빈값)을 토대로 모수 추정
- 점추정량의 조건
불편성 unbiasedness : 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없다 효율성 efficiency : 추정량의 분산이 작을수록 좋다 일치성 consistency : 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아짐 충족성 sufficient: 추정량은 모수데 대하여 모든 정보를 제공 *최소분산 표본추정량 (=불편성, 효율성) >> 표본의 평균 - 표본평균 : 모집단의 평균(모평균) 추정을 위한 추정량으로 확률표본의 평균값 |
② 구간추정
- 신뢰수준에 따라 모수가 특정한 구간에 있을 것이라고 선언하는 것
- 항상 추정량의 분포에 대한 전제가 주어져야하고, 신뢰수준(대부분 90,95,99%) 이 주어져야 계산 가능
- 모분산을 아는 경우/ 모르는 경우에 따라 계산 방법 다름
모분산 아는 경우 | 모분산 모르는 경우 |
(표준)정규분포 / 분자에 (σ) | t분포 / 분자에 (S) |
항상 중심은 0이고, 분산은 1로 고정 즉 모양이 고정됨 |
자유도(표본의크기-1)에 따라 그래프 모양이 완만~뾰족 다양 자유도가 29가 될 때는 표준정규분포랑 모양세가 일치 |
2) 가설검정
① 모집단에 대한 어떤 가설을 설정한 뒤, 표본관찰을 통해 그 가설의 채택여부를 결정하는 방법
② 주요 용어
귀무가설 H0 | - 테스트를 하는 가설 - 주로 이미 알려지거나 예전에 검증된 가설 - 가설 검증 시 귀무, 대립가설 둘 다 test 하는게 아니라 항상 귀무가설만 검증! |
둘은 한 쌍 |
대립가설 H1 | - 귀무가설과 상반되는 관계를 가진 한 쌍의 가설 (귀무가 T면, 대립은 당연히F인 관계) - 주관적 의견이 담기거나 뚜렷한 증거가 있을 때 주장하는 가설 |
|
검정통계량 T(x) | - 관찰된 표본으로부터 구하는 통계량, 가설의 진위 판단 기준 | |
유의수준 a | - 귀무가설을 기각하게 되는 확률의 크기 (주로 5%가 제일 많이 사용됨) - 귀무가설이 옳은데도 이를 기각할 확률의 크기 (제 1종오류) |
|
기각역 C | - 귀무가설이 옳다는 전제 하에 구한 검정통계량의 분포에서 확률이 유의수준인 부분 (<-> 채택역) |
+/- 1.96 |
③ 가설검정 단계
ⓐ 검정하고자 하는 목적에 따라 귀무가설(H0)과 대립가설(H1)을 설정
ⓑ 검정통계량 T(x) 을 구하고, 그 분포를 구함
ⓒ 유의수준(a)을 결정하고, 검정통계량의 분포에서 대립가설의 형태에 따라 유의수준에 해당하는 기각역(C) 설정
ⓓ 귀무가설이 옳다는 전제하에 표본관찰에 의한 검정통계량을 구함
ⓔ 검정통계량의 값이 기각역에 속하는지를 판단하여, 기각역에 속하면 귀무가설 기각/ 속하지 않으면 귀무가설 채택
④ 오류
- 두가지 오류는 서로 상충관계
- 일반적으로 제 1종오류 크기를 0.1,0.05,0.001 등으로 고정 후 제 2종오류가 최소가 되도록 기각역을 설정
귀무가설(H0)이 사실이라 판정 | 귀무가설(H0)이 거짓이라 판정 | |
하지만 귀무가설(H0)이 사실 | 옳은 결정 | 제1종오류(a) : 얘를 줄이는 게 제일 중요 |
하지만 귀무가설(H0)이 거짓임 | 제 2종 오류(B) | 옳은결정 |
6. 비모수 검정
- 모집단의 모수에 대한 검정은 '모수적 검정'과 '비모수적 검정'으로 구분됨
모수적방법 | 비모수적방법 |
모집단의 분포에 대한 가정 후 검정 실시 | 모집단에 아무 제약을 가하지 않고 검정 실시 |
표본평균, 표본분산 등을 이용 | 가정된 분포가 없기 때문에, 분포의 형태만 설정 후 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정 |
'ADsP > 3과목' 카테고리의 다른 글
[3과목] 3-4. 통계분석 (3) 회귀분석 (0) | 2022.10.01 |
---|---|
[3과목] 3-4. 통계분석 (2) 기초통계분석 (0) | 2022.10.01 |
[3과목] 3-3.데이터 마트 (2) 데이터 가공&관리 (0) | 2022.09.21 |
[3과목] 3-3. 데이터마트 (2) | 2022.09.19 |
[3과목] 3-2. R기초 (2) 매트릭스 & 데이터프레임 (0) | 2022.09.18 |