1. 회귀분석
1) 기초 정의
- 하나 또는 그 이상의 변수들이 또 다른 변수에 미치는 영향을 추론하는 통계기법
- (Y) 반응변수, 종속변수, 결과변수
- (X) 설명변수, 독립변수, 예측변수
2) 선형회귀 분석의 가정
① 선형성: 입력변수와 출력변수의 관계가 선형이다
② 등분산성: 오차의 분산이 일정. 산점도 통해 확인
③ 독립성: 입력변수와 오차는 관계가 없다. Durbin-Watson 통계량으로 독립성 검증
④ 비상관성: 오차들끼리 상관 없음
⑤ 정상성: 오차의 분포가 정규분포를 따른다.
3) 회귀 모형의 평가
① 모형이 통계적으로 유의미한가? : F-통계량의 p-값 < 0.05 확인
② 개별 회귀계수들이 유의미한가? : 회귀계수의 p-값 < 0.05 확인
*p-값 확인 할 때 'e' 가 뜻하는 바 - 매우 큰 수를 부동소수점으로 표현 시 e를 이용하여 숫자에 지수 추가 가능함. - e앞에 있는 숫자에 10을 지수번만큼 곱하는 것 3.14e-16 : 왼쪽으로 소수점 16번 이동 2.2e+01 : 오른쪽으로 소수점 1번 이동 |
③ 모형의 설명력 : 결정계수(R²) 확인
- 결정계수= SSR(전체제곱합) / SST(회귀제곱합)
- 0~1 사이의 값으로, 높을수록 회귀모형의 설명력이 높음
- 다변량 회귀분석에서는 독립변수의 수가 많아지면 결정계수도 높아지기 때문에, 수정된 결정계수를 활용
4) 종류
① 단순회귀분석
- 한개의 독립변수와 한개의 종속변수로 구성 (연속형)
- 회귀계수의 추정 = 최소제곱법 : 잔차제곱이 가장 작은 선을 구하는 것을 의미
② 다중선형회귀분석
- 두 개이상의 독립변수를 사용하여 종손변수의 변화 설명 (연속형)
③ 로지스틱회귀분석
- 종속변수가 범주형인 경우 사용
2. 최적회귀방정식
1) 개념
- 필요한 변수만 선택
-데이터에 설명변수 수가 많아지면 관리가 힘들기에, 가능한 범위 내에서 적은 수의 설명변수만 포함
-모든 가능한 조합의 회귀모형 생성 뒤 가장 적합한 회귀모형을 선택
2) 단계적 변수 선택
① 전진선택법 : 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
② 후진제거법: 독립변수를 모두 포함한 모형에서 가장 영향력 적은 변수들을 제거해나가며 모형 선택
③ 단계선택법:
- 기존 모형에서 예측변수의 추가, 제거를 반복하며 최적의 모형을 찾는 방법
- 전진/후진 방법과 동일한 최적모형을 갖는건 x (13회기출)
*step 함수 이용한 변수선택 > step (lm (출력변수~입력변수, 데이터세트), scope=list(lower=~1, upper=~입력변수), direction="변수선택방법") >> direction부분이 forward: 전진선택 / backward: 후진제거 / stepwise: 단계적선택법 |
3) 벌점화된 선택기준
- 모형의 복잡도에 벌점을 주는 방법
- AIC, BIC 값이 최소가 되는 모형을 선택하는 것
회귀분석표 해석 방법은 아래 링크 참고!
회귀 분석의 이해 #4
회귀 분석 결과 해석하기 | (1편 보기) (2편 보기) (3편 보기) 지금까지 회귀 분석과 관련된 기본적인 이론을 알아봤으니 이제는 간단한 예제 데이터를 이용해 회귀 분석을 어떻게 하는지 예를 들
brunch.co.kr
*좋아요와 구독은 큰 행복이 됩니다 😊 모두 스터디 파이팅!
'ADsP > 3과목' 카테고리의 다른 글
[3과목] 3-5 정형 데이터마이닝 (1) 개요 (0) | 2022.10.02 |
---|---|
[3과목] 3-4.통계분석 (4) 시계열분석 (0) | 2022.10.01 |
[3과목] 3-4. 통계분석 (2) 기초통계분석 (0) | 2022.10.01 |
[3과목] 3-4. 통계분석 (1)통계분석 이해 (1) | 2022.09.25 |
[3과목] 3-3.데이터 마트 (2) 데이터 가공&관리 (0) | 2022.09.21 |