ADsP/3과목

[3과목] 3-4. 통계분석 (3) 회귀분석

RECORD WHO (레코드후) 2022. 10. 1. 20:54

1. 회귀분석

1) 기초 정의

- 하나 또는 그 이상의 변수들이 또 다른 변수에 미치는 영향을 추론하는 통계기법

- (Y) 반응변수, 종속변수, 결과변수

- (X) 설명변수, 독립변수, 예측변수 

 

2) 선형회귀 분석의 가정

① 선형성: 입력변수와 출력변수의 관계가 선형이다 

② 등분산성: 오차의 분산이 일정. 산점도 통해 확인

③ 독립성: 입력변수와 오차는 관계가 없다. Durbin-Watson 통계량으로 독립성 검증

④ 비상관성: 오차들끼리 상관 없음

⑤ 정상성: 오차의 분포가 정규분포를 따른다. 

 

3) 회귀 모형의 평가

① 모형이 통계적으로 유의미한가? : F-통계량의 p-값 < 0.05 확인

② 개별 회귀계수들이 유의미한가? : 회귀계수의 p-값 < 0.05 확인 

*p-값 확인 할 때 'e' 가 뜻하는 바 

- 매우 큰 수를 부동소수점으로 표현 시 e를 이용하여 숫자에 지수 추가 가능함.
- e앞에 있는 숫자에 10을 지수번만큼 곱하는 것

3.14e-16 : 왼쪽으로 소수점 16번 이동
2.2e+01 : 오른쪽으로 소수점 1번 이동

③ 모형의 설명력 : 결정계수(R²) 확인

- 결정계수= SSR(전체제곱합) / SST(회귀제곱합) 

- 0~1 사이의 값으로, 높을수록 회귀모형의 설명력이 높음

- 다변량 회귀분석에서는 독립변수의 수가 많아지면 결정계수도 높아지기 때문에, 수정된 결정계수를 활용

 

4) 종류

① 단순회귀분석

- 한개의 독립변수와 한개의 종속변수로 구성 (연속형)

- 회귀계수의 추정 = 최소제곱법 : 잔차제곱이 가장 작은 선을 구하는 것을 의미

② 다중선형회귀분석

- 두 개이상의 독립변수를 사용하여 종손변수의 변화 설명 (연속형)

③ 로지스틱회귀분석

- 종속변수가 범주형인 경우 사용

 

2. 최적회귀방정식

1) 개념

- 필요한 변수만 선택

-데이터에 설명변수 수가 많아지면 관리가 힘들기에, 가능한 범위 내에서 적은 수의 설명변수만 포함

-모든 가능한 조합의 회귀모형 생성 뒤 가장 적합한 회귀모형을 선택

 

2) 단계적 변수 선택

① 전진선택법 : 중요하다고 생각되는 설명변수부터 차례로 모형에 추가

② 후진제거법: 독립변수를 모두 포함한 모형에서 가장 영향력 적은 변수들을 제거해나가며 모형 선택

③ 단계선택법:

- 기존 모형에서 예측변수의 추가, 제거를 반복하며 최적의 모형을 찾는 방법

- 전진/후진 방법과 동일한 최적모형을 갖는건 x (13회기출) 

*step 함수 이용한 변수선택
> step (lm (출력변수~입력변수, 데이터세트), scope=list(lower=~1, upper=~입력변수), direction="변수선택방법") 

>> direction부분이 forward: 전진선택 / backward: 후진제거 / stepwise: 단계적선택법

 

3) 벌점화된 선택기준 

- 모형의 복잡도에 벌점을 주는 방법

- AIC,  BIC 값이 최소가 되는 모형을 선택하는 것 

 


 

회귀분석표 해석 방법은 아래 링크 참고! 

 

회귀 분석의 이해 #4

회귀 분석 결과 해석하기 | (1편 보기) (2편 보기) (3편 보기) 지금까지 회귀 분석과 관련된 기본적인 이론을 알아봤으니 이제는 간단한 예제 데이터를 이용해 회귀 분석을 어떻게 하는지 예를 들

brunch.co.kr

 


*좋아요와 구독은 큰 행복이 됩니다 😊 모두 스터디 파이팅!