ADsP/3과목

[3과목] 3-5 정형 데이터마이닝 (1) 개요

RECORD WHO (레코드후) 2022. 10. 2. 20:22

1. 데이터마이닝

- 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 

- 통계분석은 일부 데이터를 갖고 가설/가정에 따라 검증하는 과정이라면, 데이터마이닝은 알고리즘을 이용해 대용량의 데이터를 활용하는 것

정보를 찾는 방법론에 따른 종류 분석대상, 활용목적,표현방법에 따른 분류
인공지능
의사결정나무
K-평균군집화
연관분석
회귀분석
로짓분석
최근접이웃
시각화분석
분류
군집화
예측

 

2. 데이터마이닝 분석방법

지도학습 supervised learning 
: 목적변수가 있는 경우
비지도학습 unsupervised learning
: 목적변수가 없는 경우
의사결정나무
인공신경망
일반화 선형 모형
회귀분석
로지스틱회귀분석
사례기반 추론
최근접 이웃법
OLAP
연관성 규칙발견
군집분석
SOM 

 

3. 분석 목적에 따른 작업 유형 및 기법

목적 작업유형 설명 기법
예측
(=지도학습)
분류규칙 과거의 데이터로부터 특성을 찾아내 분류모형을 만든 후 이를 토대로 새로운 데이터의 결과값을 예측 회귀분석, 판별분석, 신경망, 의사결정나무
설명
(=비지도학습)
연관규칙 데이터 안에 존재하는 항목간의 종속관계 발견. 
제품 교차판매, 매장진열, 첨부우편 등에 활용
동시발생 매트릭스
연속규칙 연관 규칙에 시간관련 정보가 포함된 형태.
고객 구매이력을 기반으로 목표마케팅, 일대일마케팅
동시발생 매트릭스
데이터
군집화
고객 레코드를 유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 작업. 판촉활동 및 이벤트 대상 선정에 활용. K-means clustering

 

4. 데이터마이닝 단계 [목적설정 > 데이터준비 > 가공 > 기법적용 > 검증] 

1) 목적설정 : 데이터마이닝의 정확한 목적을 설정하고, 사용할 모델과 필요한 데이터를 정의

2) 데이터 준비 : 다양한 데이터 확보 및 정제

3) 가공 : 모델링 목적에 따라 목적 변수 정의하고 필요한 데이터를 소프트웨어에 적용 가능하게끔 가공

4) 기법 적용 

5) 검증 : 테스트 데이터와 과거 데이터 활용하여 추출된 정보 검증 및 최적의 모델 선정 

 

5. 데이터마이닝을 위한 데이터 분할

1) 구축용 (training data, 50%) : 분석모형을 만드는 데 활용

2) 검정용 (validation data, 30%) : 구축된 모형의 과대추정/ 과소추정 조정을 위해 활용

3) 시험용 (test data, 20%) : 테스트데이터나 과거데이터 활용하여 모델 성능 검증 

4) 데이터 양이 충분하지 않거나 입력변수에 대한 설명이 충분한 경우

홀드아웃 방법:

- 주어진 데이터를 랜덤하게 2개의 데이터로 구분하여 사용

- 구축용, 시험용으로만 나누어서 분석

교차확인 방법:

-주어진 데이터를 k개의 하부집단으로 구분하여, k-1개의 집단을 학습용으로 나머지는 하부집단으로 검증용으로 설정하여 학습. k번 반복 특정한 결과를 평균낸 값을 최종값으로 활용. 

 

6. 성과분석

1) 오분류에 대한 추정치 (중요)

- 모형 평가 시 특히 많이 보는 지표는 : 정분류율/ 민감도 / (1-특이도)

- 정분류율/ 민감도는 높을수록 GOOD, (1-특이도)는 낮을수록 GOOD

정분류율 accuracy 전체 중 실제값과 예측치가 일치하는 정도 TN+TP / TN+TP+FN+FP
오분류율 Error Rate 전체 중 실제값과 예측치가 다른 정도 1- (정분류율)
특이도 specificity 실제값이 F인 관측치 중 예측치가 적중한 정도
(F를 F로 잘 맞춘 경우)
TN / TN+FP 
* (1-특이도) : F를 T로 예측한 경우
민감도 sensitivity 실제값이 T인 관측치 중 예측치가 적중한 정도
(T를 T로 잘 맞춘 경우)
TP / TP+FN
정확도 precision 참으로 예측된 것 중 실제로도 참인 것
(정확도는 예측치를 기준으로 봄!)
TP / TP+FP
재현율 recall 민감도와 동일  TP / TP+FN
F1 Score 정확도와 재현율은 한 지표의 값이 높아지면, 다른 지표의 값이 낮아질 가능성이 높은 관계를 지니고 있음. 이런 효과를 보장하여 하나의 지표로 만들어 낸것. 
(값이 클수록 모형의 성능이 좋음을 의미) 
2 x [정확도*재현율 / 정확도+재현율]

2) ROCR 패키지로 성과분석 (중요)

- ROC Curve란 가로축을 FPR(1-특이도) , 세로축을 TPR(민감도)로 두어 시각화한 그래프

- 그래프가 왼쪽 상단에 가깝게 그려질수록 올바르게 예측한 비율이 높음을 의미

- ROC곡선 아래의 면적을 의미하는 AUROC(삼각형) 값이 클수록 모형 성능이 좋다고 평가 

- AUROC는 보통 0.5~1 사이의 값이 나오며, 0.5보다 낮은 값이 나올 순 있으나 1을 넘지는 않음 

3) 이익도표

- 분류모형의 성능을 평가하기 위한 척도로, 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는 지를 평가

- 임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표 

- 이익도표의 각 등급은 예측확률에 따라 매겨진 순위기 때문에, 상위 등급에서 더 높은 반응률을 보이는 것이 좋은 모형

- 좋은모델이라면 Lift (반응률/기본향상도)가 빠른 속도로 감소해야 함