ADsP/3과목

[3과목] 3-5. 정형 데이터마이닝 (3) 앙상블분석

RECORD WHO (레코드후) 2022. 10. 3. 12:32

1. 앙상블기법

1) 개념

- 과대적합/ 과소적합의 문제를 해결하기 위해, 여러 개의 분류기를 활용하여 앙상블을 이루도록 만든 것

- 여러 예측모형을 조합하여 하나의 최종 예측 모형을 만드는 방법 

- 다중모델조합, 분류기조합 등이 존재

 

앙상블 알고리즘

2. 앙상블 기법의 종류

1) 배깅

- 분석용 데이터로부터 여러 개의 붓스트랩(bootstrap) 데이터 생성

- 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 다수결을 통해 최종 예측모형 결정

- 배깅에서는 가지치기를 하지 않고, 최대로 성장한 의사결정나무들을 활용

*붓스트랩 (bootstrap) : 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료
**보팅 (voting) : 여러개의 모형으로부터 산출된 결과를 다수결에 의해 최종 결과를 선정하는 과정 

 

2) 부스팅

- 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법

- 동일한 가중치의 원 분석용 데이터로 분류자를 생성 후, 이전 분석용 데이터의 분류 결과에 따라 가중치 부여

- 목표하는 정확성이 나올 때 까지 n회 반복 후 최종분류자 결정 

- 부스팅의 종류 = Adaboost, GBM, XG Boost, Light GBM

 

3) 랜덤포레스트

- 배깅과 부스팅을 결합 : 약한 학습기들을 생성한 후 이를 선형결합하여 최종 학습기 만드는 방법

- 최종 결과에 대한 해석이 어렵다는 단점

- 예측력이 매우 높다는 장점

*out of -bag sample (OOB 에러) 
붓스트랩은 주어진 자료에서 단순랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러개 생성하는 샘플링 방법.
붓스트랩으로 샘플 추출 시 샘플에 한 번도 선택되지 않는 데이터 발생 가능, 일반적으로 36.8%가 해당.