1. 앙상블기법
1) 개념
- 과대적합/ 과소적합의 문제를 해결하기 위해, 여러 개의 분류기를 활용하여 앙상블을 이루도록 만든 것
- 여러 예측모형을 조합하여 하나의 최종 예측 모형을 만드는 방법
- 다중모델조합, 분류기조합 등이 존재
2. 앙상블 기법의 종류
1) 배깅
- 분석용 데이터로부터 여러 개의 붓스트랩(bootstrap) 데이터 생성
- 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 다수결을 통해 최종 예측모형 결정
- 배깅에서는 가지치기를 하지 않고, 최대로 성장한 의사결정나무들을 활용
*붓스트랩 (bootstrap) : 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료 **보팅 (voting) : 여러개의 모형으로부터 산출된 결과를 다수결에 의해 최종 결과를 선정하는 과정 |
2) 부스팅
- 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법
- 동일한 가중치의 원 분석용 데이터로 분류자를 생성 후, 이전 분석용 데이터의 분류 결과에 따라 가중치 부여
- 목표하는 정확성이 나올 때 까지 n회 반복 후 최종분류자 결정
- 부스팅의 종류 = Adaboost, GBM, XG Boost, Light GBM
3) 랜덤포레스트
- 배깅과 부스팅을 결합 : 약한 학습기들을 생성한 후 이를 선형결합하여 최종 학습기 만드는 방법
- 최종 결과에 대한 해석이 어렵다는 단점
- 예측력이 매우 높다는 장점
*out of -bag sample (OOB 에러) 붓스트랩은 주어진 자료에서 단순랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러개 생성하는 샘플링 방법. 붓스트랩으로 샘플 추출 시 샘플에 한 번도 선택되지 않는 데이터 발생 가능, 일반적으로 36.8%가 해당. |
'ADsP > 3과목' 카테고리의 다른 글
[3과목] 3-5. 정형데이터 마이닝 (4) 군집분석 (0) | 2022.10.04 |
---|---|
[3과목] 3-5. 정형데이터마이닝 (2) 분류분석 (0) | 2022.10.02 |
[3과목] 3-5 정형 데이터마이닝 (1) 개요 (0) | 2022.10.02 |
[3과목] 3-4.통계분석 (4) 시계열분석 (0) | 2022.10.01 |
[3과목] 3-4. 통계분석 (3) 회귀분석 (0) | 2022.10.01 |