의사결정나무 2

[3과목] 3-5. 정형 데이터마이닝 (3) 앙상블분석

1. 앙상블기법 1) 개념 - 과대적합/ 과소적합의 문제를 해결하기 위해, 여러 개의 분류기를 활용하여 앙상블을 이루도록 만든 것 - 여러 예측모형을 조합하여 하나의 최종 예측 모형을 만드는 방법 - 다중모델조합, 분류기조합 등이 존재 2. 앙상블 기법의 종류 1) 배깅 - 분석용 데이터로부터 여러 개의 붓스트랩(bootstrap) 데이터 생성 - 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 다수결을 통해 최종 예측모형 결정 - 배깅에서는 가지치기를 하지 않고, 최대로 성장한 의사결정나무들을 활용 *붓스트랩 (bootstrap) : 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료 **보팅 (voting) : 여러개의 모형으로부터 산출된 결과를 다수결에 의해 최종 결과를 선정하는 과정 ..

ADsP/3과목 2022.10.03

[3과목] 3-5. 정형데이터마이닝 (2) 분류분석

1. 분류분석 - 범주형 속성의 값 (명목/순서척도) 이 어떤 그룹에 속하는지 예측하는 데 사용 - 분류기법 : 로지스틱회귀분석, 의사결정나무, 베이지안분류, 인공신경망, SVM 등을 활용 - 사기방지모형, 이탈모형, 고객세분화 모형 등을 개발할 때 활용하는 데이터마이닝 방법론 cf) 예측분석 - 예측은 '연속형' 속성의 값을 알아맞히는 것 - 시계열분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 데이터를 예측하는 것 2. 로지스틱 회귀분석 - 선형회귀의 종속변수는 일반적으로 연속적인 정규분포를 가짐 - 종속변수가 범주형 (예/아니오, 1/0, 합격/불합격) 일 때 로지스틱 회귀분석을 통해 분석 - 종속변수를 0과 1의 범주형으로 표현 가능하며, 회귀분석보다는 '분류모델'에 더 가깝다 - 시그모이드함..

ADsP/3과목 2022.10.02