ADsP/3과목

[3과목] 3-5. 정형데이터마이닝 (2) 분류분석

RECORD WHO (레코드후) 2022. 10. 2. 21:42

1. 분류분석

- 범주형 속성의 값 (명목/순서척도) 이 어떤 그룹에 속하는지 예측하는 데 사용

- 분류기법 : 로지스틱회귀분석, 의사결정나무, 베이지안분류, 인공신경망, SVM 등을 활용

- 사기방지모형, 이탈모형, 고객세분화 모형 등을 개발할 때 활용하는 데이터마이닝 방법론

cf) 예측분석
- 예측은 '연속형' 속성의 값을 알아맞히는 것
- 시계열분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 데이터를 예측하는 것

 

2. 로지스틱 회귀분석 

- 선형회귀의 종속변수는 일반적으로 연속적인 정규분포를 가짐

- 종속변수가 범주형 (예/아니오, 1/0, 합격/불합격) 일 때 로지스틱 회귀분석을 통해 분석

- 종속변수를 0과 1의 범주형으로 표현 가능하며, 회귀분석보다는 '분류모델'에 더 가깝다

- 시그모이드함수 : 시그모이드함수의 출력은 0보다 크고 1보다 작은 임의의 값을 갖는다 

 

3. 의사결정나무

1) 개념

- 분류함수를 의사결정 규칙으로 이뤄진 나무모양으로 그리는 방법
- 주어진 입력값에 대해 출력값을 예측하는 모형

- 의사결정 나무의 활용 방안 5가지
① 세분화 : 비슷한 특성을 갖는 그룹으로 분할해 특성 발견
② 분류 : 목표변수 범주를 몇 개의 등급으로 분류
③ 예측 : 자료에서 규칙을 찾아내고 미래 사건을 예측
④ 차원축소 및 변수선택 : 매우 많은 예측변수 중 큰 영향 변수만 골라내는 
⑤ 교호작용효과의 파악 : 여러 예측변수를 결합해 규칙을 파악

2) 의사결정나무 특징

① 장점

- 결과를 누구에게나 설명하기 용이하며, 모형 만드는 방법이 복잡하지 않음

- 대용량 데이터에서도 빠르게 생성 가능

- 비정상 잡음 데이터에 대해서도 민감함 없이 분류 가능

- 한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 크게 영향 받지 않음

- 설명변수나 목표변수에 수치형변수와 범주형변수 모두 사용 가능

- 모형 분류 정확도가 높음

② 단점

- 새로운 자료에 대해 과대적합이 발생할 가능성이 높음

- 분류 경계선 부근의 자료값에 대해 오차가 큼

- 설명변수 간의 중요도를 판단하기 쉽지 않음

 

3) 의사결정나무 분석과정 (성장 > 가지치기 > 타당성 평가 > 해석 및 예측) 

① 성장단계 

- 각 마디에서 적절한 '분리규칙'을 찾아 나무를 성장시키고, 적절한 '정지규칙'을 만족하면 중단

- 순수도가 가장 높고, 불순도가 가장 낮은 구간을 찾을 때 까지 반복하여 분할

 ⒜ 분리기준 (중요)

  - 이산형 목표변수

기준값 분리기준
카이제곱 통계량p값 p값이 가장 작은 예측변수와 그 때의 최적분리에 의해서 자식마디를 형성
지니지수 지니 지수를 감소시켜주는 예측변수와 그 때의 최적분리에 의해 자식마디를 선택
엔트로피지수 엔트로피지수가 가장 작은 예측변수와 이 때의 최적분리에 의해 자식마디를 형성

  - 연속형 목표변수

기준값 분리기준
분산분석에서 F통계량 p값이 가장 작은 예측변수와 그 때의 최적분리에 의해서 자식마디를 형성
분산의 감소량 분산의 감소량을 최대화하는 기준의 최적분리에 의해 자식마디를 형성 

 ⒝ 정지규칙

- 더이상 분리가 일어나지 않고, 현재의 마디가 끝마디가 되도록 하는 규칙

- 의사결정나무의 깊이depth를 지정


② 가지치기 : 필요없는 분리기준은 제거

- 너무 큰 나무모형은 과대적합, 너무 작은 모형은 과소적합의 위험이 있고 이를 없애기 위해 가지치기 진행

- 일반적으로 마디에 속하는 자료가 일정 수치(ex.5) 이하일 때 분할을 정지, 비용-복잡도 방식을 이용하여 가지치기 진행

- 가지치기 기준은 테스트 데이터를 활용하거나 전문가에 의해 타당성 검토

*과대적합
- 모형이 학습용 데이터를 과하게 학습
- 학습용 데이터에 대한 정확도는 높으나, 평가용 데이터에 대한 정확도는 떨어지는 현상

**과소적합
- 모형이 너무 단순하여 데이터 속에 내제된 패턴이나 규칙을 제대로 학습하지 못하는 경우

③ 타당성 평가 : 이익도표, 위험도표 등을 이용해 의사결정나무 평가
④ 해석 및 예측: 구축된 모형을 해석하고 예측모형을 설정한 후 예측에 적용

4. 불순도 측정법 

- 이산형(=범주형) 변수의 의사결정나무 분류규칙 선택을 위해선 3가지 지수가 활용됨

1) 카이제곱 통계량

2) 지니지수 

- 불확실성을 나타내는 값으로 지니지수 값이 클수록 불순도가 높고, 순수도는 낮음을 의미 

- 집단 내에 있는 구성원들이 동일할수록 지니지수는 낮아지고, 다양할수록 지니지수 높아짐 

- 지니지수가 0 = 불확실성이 0 이라는 의미로 동일 특성의 객체들끼지 모여있다는 것

- 1에서 (전체개수/ 각각의 종류) ²을 더한 값을 뺌

* 더 자세한 설명은 링크 참고

 

3) 엔트로피 지수 : 무질서 정도를 나타내는 값으로, 값이 클수록 순수도가 낮음 

 

5. 의사결정나무 알고리즘

1) CART

- 가장 많이 활용되는 의사결정나무 알고리즘

- 이진분리 사용 : 목적변수(y)가 범주형인 경우 지니지수, 연속형인 경우 분산 이용 

 

2) C4.5와 C5.0

- CART와 다르게 각 마디에서 '다지분리 multiple split' 가능

- 불순도의 측도르 엔트로피지수 사용

 

3) CHAID

- 가지치기를 하지 않고, 적당한 크기에서 나무모형의 성장을 중지

- 입력변수가 반드시 범주형 변수

- 불순도의측도로 카이제곱 통계량 사용