1. 데이터마이닝
- 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법
- 통계분석은 일부 데이터를 갖고 가설/가정에 따라 검증하는 과정이라면, 데이터마이닝은 알고리즘을 이용해 대용량의 데이터를 활용하는 것
정보를 찾는 방법론에 따른 종류 | 분석대상, 활용목적,표현방법에 따른 분류 |
인공지능 의사결정나무 K-평균군집화 연관분석 회귀분석 로짓분석 최근접이웃 |
시각화분석 분류 군집화 예측 |
2. 데이터마이닝 분석방법
지도학습 supervised learning : 목적변수가 있는 경우 |
비지도학습 unsupervised learning : 목적변수가 없는 경우 |
의사결정나무 인공신경망 일반화 선형 모형 회귀분석 로지스틱회귀분석 사례기반 추론 최근접 이웃법 |
OLAP 연관성 규칙발견 군집분석 SOM |
3. 분석 목적에 따른 작업 유형 및 기법
목적 | 작업유형 | 설명 | 기법 |
예측 (=지도학습) |
분류규칙 | 과거의 데이터로부터 특성을 찾아내 분류모형을 만든 후 이를 토대로 새로운 데이터의 결과값을 예측 | 회귀분석, 판별분석, 신경망, 의사결정나무 |
설명 (=비지도학습) |
연관규칙 | 데이터 안에 존재하는 항목간의 종속관계 발견. 제품 교차판매, 매장진열, 첨부우편 등에 활용 |
동시발생 매트릭스 |
연속규칙 | 연관 규칙에 시간관련 정보가 포함된 형태. 고객 구매이력을 기반으로 목표마케팅, 일대일마케팅 |
동시발생 매트릭스 | |
데이터 군집화 |
고객 레코드를 유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 작업. 판촉활동 및 이벤트 대상 선정에 활용. | K-means clustering |
4. 데이터마이닝 단계 [목적설정 > 데이터준비 > 가공 > 기법적용 > 검증]
1) 목적설정 : 데이터마이닝의 정확한 목적을 설정하고, 사용할 모델과 필요한 데이터를 정의
2) 데이터 준비 : 다양한 데이터 확보 및 정제
3) 가공 : 모델링 목적에 따라 목적 변수 정의하고 필요한 데이터를 소프트웨어에 적용 가능하게끔 가공
4) 기법 적용
5) 검증 : 테스트 데이터와 과거 데이터 활용하여 추출된 정보 검증 및 최적의 모델 선정
5. 데이터마이닝을 위한 데이터 분할
1) 구축용 (training data, 50%) : 분석모형을 만드는 데 활용
2) 검정용 (validation data, 30%) : 구축된 모형의 과대추정/ 과소추정 조정을 위해 활용
3) 시험용 (test data, 20%) : 테스트데이터나 과거데이터 활용하여 모델 성능 검증
4) 데이터 양이 충분하지 않거나 입력변수에 대한 설명이 충분한 경우
① 홀드아웃 방법:
- 주어진 데이터를 랜덤하게 2개의 데이터로 구분하여 사용
- 구축용, 시험용으로만 나누어서 분석
② 교차확인 방법:
-주어진 데이터를 k개의 하부집단으로 구분하여, k-1개의 집단을 학습용으로 나머지는 하부집단으로 검증용으로 설정하여 학습. k번 반복 특정한 결과를 평균낸 값을 최종값으로 활용.
6. 성과분석
1) 오분류에 대한 추정치 (중요)
- 모형 평가 시 특히 많이 보는 지표는 : 정분류율/ 민감도 / (1-특이도)
- 정분류율/ 민감도는 높을수록 GOOD, (1-특이도)는 낮을수록 GOOD
정분류율 accuracy | 전체 중 실제값과 예측치가 일치하는 정도 | TN+TP / TN+TP+FN+FP |
오분류율 Error Rate | 전체 중 실제값과 예측치가 다른 정도 | 1- (정분류율) |
특이도 specificity | 실제값이 F인 관측치 중 예측치가 적중한 정도 (F를 F로 잘 맞춘 경우) |
TN / TN+FP * (1-특이도) : F를 T로 예측한 경우 |
민감도 sensitivity | 실제값이 T인 관측치 중 예측치가 적중한 정도 (T를 T로 잘 맞춘 경우) |
TP / TP+FN |
정확도 precision | 참으로 예측된 것 중 실제로도 참인 것 (정확도는 예측치를 기준으로 봄!) |
TP / TP+FP |
재현율 recall | 민감도와 동일 | TP / TP+FN |
F1 Score | 정확도와 재현율은 한 지표의 값이 높아지면, 다른 지표의 값이 낮아질 가능성이 높은 관계를 지니고 있음. 이런 효과를 보장하여 하나의 지표로 만들어 낸것. (값이 클수록 모형의 성능이 좋음을 의미) |
2 x [정확도*재현율 / 정확도+재현율] |
2) ROCR 패키지로 성과분석 (중요)
- ROC Curve란 가로축을 FPR(1-특이도) , 세로축을 TPR(민감도)로 두어 시각화한 그래프
- 그래프가 왼쪽 상단에 가깝게 그려질수록 올바르게 예측한 비율이 높음을 의미
- ROC곡선 아래의 면적을 의미하는 AUROC(삼각형) 값이 클수록 모형 성능이 좋다고 평가
- AUROC는 보통 0.5~1 사이의 값이 나오며, 0.5보다 낮은 값이 나올 순 있으나 1을 넘지는 않음
3) 이익도표
- 분류모형의 성능을 평가하기 위한 척도로, 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는 지를 평가
- 임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표
- 이익도표의 각 등급은 예측확률에 따라 매겨진 순위기 때문에, 상위 등급에서 더 높은 반응률을 보이는 것이 좋은 모형
- 좋은모델이라면 Lift (반응률/기본향상도)가 빠른 속도로 감소해야 함
'ADsP > 3과목' 카테고리의 다른 글
[3과목] 3-5. 정형 데이터마이닝 (3) 앙상블분석 (0) | 2022.10.03 |
---|---|
[3과목] 3-5. 정형데이터마이닝 (2) 분류분석 (0) | 2022.10.02 |
[3과목] 3-4.통계분석 (4) 시계열분석 (0) | 2022.10.01 |
[3과목] 3-4. 통계분석 (3) 회귀분석 (0) | 2022.10.01 |
[3과목] 3-4. 통계분석 (2) 기초통계분석 (0) | 2022.10.01 |