1. 분류분석
- 범주형 속성의 값 (명목/순서척도) 이 어떤 그룹에 속하는지 예측하는 데 사용
- 분류기법 : 로지스틱회귀분석, 의사결정나무, 베이지안분류, 인공신경망, SVM 등을 활용
- 사기방지모형, 이탈모형, 고객세분화 모형 등을 개발할 때 활용하는 데이터마이닝 방법론
cf) 예측분석 - 예측은 '연속형' 속성의 값을 알아맞히는 것 - 시계열분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 데이터를 예측하는 것 |
2. 로지스틱 회귀분석
- 선형회귀의 종속변수는 일반적으로 연속적인 정규분포를 가짐
- 종속변수가 범주형 (예/아니오, 1/0, 합격/불합격) 일 때 로지스틱 회귀분석을 통해 분석
- 종속변수를 0과 1의 범주형으로 표현 가능하며, 회귀분석보다는 '분류모델'에 더 가깝다
- 시그모이드함수 : 시그모이드함수의 출력은 0보다 크고 1보다 작은 임의의 값을 갖는다
3. 의사결정나무
1) 개념
![]() |
- 분류함수를 의사결정 규칙으로 이뤄진 나무모양으로 그리는 방법 - 주어진 입력값에 대해 출력값을 예측하는 모형 - 의사결정 나무의 활용 방안 5가지 ① 세분화 : 비슷한 특성을 갖는 그룹으로 분할해 특성 발견 ② 분류 : 목표변수 범주를 몇 개의 등급으로 분류 ③ 예측 : 자료에서 규칙을 찾아내고 미래 사건을 예측 ④ 차원축소 및 변수선택 : 매우 많은 예측변수 중 큰 영향 변수만 골라내는 ⑤ 교호작용효과의 파악 : 여러 예측변수를 결합해 규칙을 파악 |
2) 의사결정나무 특징
① 장점
- 결과를 누구에게나 설명하기 용이하며, 모형 만드는 방법이 복잡하지 않음
- 대용량 데이터에서도 빠르게 생성 가능
- 비정상 잡음 데이터에 대해서도 민감함 없이 분류 가능
- 한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 크게 영향 받지 않음
- 설명변수나 목표변수에 수치형변수와 범주형변수 모두 사용 가능
- 모형 분류 정확도가 높음
② 단점
- 새로운 자료에 대해 과대적합이 발생할 가능성이 높음
- 분류 경계선 부근의 자료값에 대해 오차가 큼
- 설명변수 간의 중요도를 판단하기 쉽지 않음
3) 의사결정나무 분석과정 (성장 > 가지치기 > 타당성 평가 > 해석 및 예측)
① 성장단계
- 각 마디에서 적절한 '분리규칙'을 찾아 나무를 성장시키고, 적절한 '정지규칙'을 만족하면 중단
- 순수도가 가장 높고, 불순도가 가장 낮은 구간을 찾을 때 까지 반복하여 분할
⒜ 분리기준 (중요)
- 이산형 목표변수
기준값 | 분리기준 |
카이제곱 통계량p값 | p값이 가장 작은 예측변수와 그 때의 최적분리에 의해서 자식마디를 형성 |
지니지수 | 지니 지수를 감소시켜주는 예측변수와 그 때의 최적분리에 의해 자식마디를 선택 |
엔트로피지수 | 엔트로피지수가 가장 작은 예측변수와 이 때의 최적분리에 의해 자식마디를 형성 |
- 연속형 목표변수
기준값 | 분리기준 |
분산분석에서 F통계량 | p값이 가장 작은 예측변수와 그 때의 최적분리에 의해서 자식마디를 형성 |
분산의 감소량 | 분산의 감소량을 최대화하는 기준의 최적분리에 의해 자식마디를 형성 |
⒝ 정지규칙
- 더이상 분리가 일어나지 않고, 현재의 마디가 끝마디가 되도록 하는 규칙
- 의사결정나무의 깊이depth를 지정
② 가지치기 : 필요없는 분리기준은 제거
- 너무 큰 나무모형은 과대적합, 너무 작은 모형은 과소적합의 위험이 있고 이를 없애기 위해 가지치기 진행
- 일반적으로 마디에 속하는 자료가 일정 수치(ex.5) 이하일 때 분할을 정지, 비용-복잡도 방식을 이용하여 가지치기 진행
- 가지치기 기준은 테스트 데이터를 활용하거나 전문가에 의해 타당성 검토
*과대적합 - 모형이 학습용 데이터를 과하게 학습 - 학습용 데이터에 대한 정확도는 높으나, 평가용 데이터에 대한 정확도는 떨어지는 현상 **과소적합 - 모형이 너무 단순하여 데이터 속에 내제된 패턴이나 규칙을 제대로 학습하지 못하는 경우 |
③ 타당성 평가 : 이익도표, 위험도표 등을 이용해 의사결정나무 평가
④ 해석 및 예측: 구축된 모형을 해석하고 예측모형을 설정한 후 예측에 적용
4. 불순도 측정법
- 이산형(=범주형) 변수의 의사결정나무 분류규칙 선택을 위해선 3가지 지수가 활용됨
1) 카이제곱 통계량
2) 지니지수
- 불확실성을 나타내는 값으로 지니지수 값이 클수록 불순도가 높고, 순수도는 낮음을 의미
- 집단 내에 있는 구성원들이 동일할수록 지니지수는 낮아지고, 다양할수록 지니지수 높아짐
- 지니지수가 0 = 불확실성이 0 이라는 의미로 동일 특성의 객체들끼지 모여있다는 것
- 1에서 (전체개수/ 각각의 종류) ²을 더한 값을 뺌
![]() |
![]() |
* 더 자세한 설명은 링크 참고
3) 엔트로피 지수 : 무질서 정도를 나타내는 값으로, 값이 클수록 순수도가 낮음
5. 의사결정나무 알고리즘
1) CART
- 가장 많이 활용되는 의사결정나무 알고리즘
- 이진분리 사용 : 목적변수(y)가 범주형인 경우 지니지수, 연속형인 경우 분산 이용
2) C4.5와 C5.0
- CART와 다르게 각 마디에서 '다지분리 multiple split' 가능
- 불순도의 측도르 엔트로피지수 사용
3) CHAID
- 가지치기를 하지 않고, 적당한 크기에서 나무모형의 성장을 중지
- 입력변수가 반드시 범주형 변수
- 불순도의측도로 카이제곱 통계량 사용
'ADsP > 3과목' 카테고리의 다른 글
[3과목] 3-5. 정형데이터 마이닝 (4) 군집분석 (0) | 2022.10.04 |
---|---|
[3과목] 3-5. 정형 데이터마이닝 (3) 앙상블분석 (0) | 2022.10.03 |
[3과목] 3-5 정형 데이터마이닝 (1) 개요 (0) | 2022.10.02 |
[3과목] 3-4.통계분석 (4) 시계열분석 (0) | 2022.10.01 |
[3과목] 3-4. 통계분석 (3) 회귀분석 (0) | 2022.10.01 |