ADsP/2과목

2-1. 분석 기획& 분석방법론 (KDD, CRISP-DM, 빅데이터)

RECORD WHO (레코드후) 2022. 9. 12. 14:45

[분석 기획] 

1. 분석기획 

- 실제 분석을 수행하기에 앞서 '분석 과제 정의' 하고, 의도한 결과를 도출하고 관리할 수 있는 방안을 사전에 계획하는 것

- 데이터 사이언티스트는 '수학/통계지식' + ' 정보기술' + '비즈니스에 대한 이해' 가 필요

 

2. 분석 주제의 4가지 유형

: 분석의 대상(what)과 방법(how)에 따라 4가지로 나뉘어짐

  대상
방법 최적화 통찰(인사이트)
솔루션 발견

 

3. 목표시점 별 분석 기획 방안

1) 과제 중심적 접근 방법: 당면한 분석 주제의 해결 

2) 장기적인 마스터 플랜: 지속적인 분석 내재화 

  과제 중심적 방식 마스터플랜 방식
1차목표 스피드, 테스트 정확도, 효율적사용
과제 유형 quick, win long term view
접근 방식 problem solving problem definition

4. 분석 기획 시 고려사항

1) 가용데이터 

- 분석을 위한 데이터 확보

- 데이터 유형에 따라 적용 가능한 솔류션 및 분석 방법이 다르기 때문

2) 적절한 활용 방안 및 use case

- 기존에 잘 구현되어 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요

2) 장애 요소에 대한 사전계획 수립

- 가격, 퍼포먼스 등 변화 관리 고려 필요

 

5. 데이터 종류 

종류 정형데이터 반정형 비정형
특징 데이터 자체로 분석가능
RDBMS 구조의 데이터
데이터베이스로 관리
데이터로 분석 가능하지만, 메타정보 활용해야 해석이 가능 데이터 자체로 분석이 불가능
특정 처리 프로세스를 거쳐 분석데이터로 변경 후 분석
유형 ERP, CRM, SCM 등 로그, 모바일, 센싱데이터 영상, 음성 

 

[분석 방법론] 

1. 분석 방법론 개요

1) 특징

-데이터 분석이 효과적으로 기업 내에 정착하기 위해서는 이를 체계화한 절차와 방법이 정리된 '데이터 분석 방법론의 수립'이 필수적

-방법론은 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성되어 어느 정도의 지식만 있으면 활용 가능해야 함 

 

2) 데이터 기반 의사결정의 필요성

- 기업의 합리적 의사결정을 가로막는 장애요소에는, 고정관념/ 편향된 생각/ 프레이밍 효과 등이 존재 

*프레이밍 효과: 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상 

 

3) 방법론의 생성 과정

방법론 ---(내재화)---> 암묵지 ---(형식화)---> 형식지 ---(체계화)---> 방법론

  의미 특징 상호작용
암묵지 학습과 경험을 통해 개인에게 체화되어 있지만, 겉으로 드러나지 않는 지식 사회적으로 중요하지만 다른사람에게 공유되기는 어려움 내면화 - 공통화
형식지 문서나 메뉴얼처럼 형상화된 지식  전달과 공유가 용이함 표출화 -연결화

 

4) 방법론 모델 

① 폭포수 모델

- 단계를 순차적으로 진행하는 방법

- 이전 단계가 완료되어야 다음 단계로 진행될 수 있으며, 문제 발견될 시 피드백 과정 수행됨

② 프로토타입 모델

- 고객의 요구를 완전하게 이해하고 있지 못하거나, 완벽한 요구 분석의 어려움을 해결하기 위해 일부분을 우선 개발하여 사용자에게 제공 

- 테스트 결과를 통한 개선 작업을 시행하는 모델 

③ 나선형 모델

- 반복을 통해 점증적으로 개발하는 방법

- 처음 시도하는 프로젝트에 적용이 용이하지만, 관리 체계 잘 갖추지 못한 경우 복잡도 상승하여 프로젝트 진행 어려운 수 있음 

 

5) 방법론의 구성

① 단계 (단계별 완료 보고서)

: 최상위 계층으로 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성됨. 

② 태스크 (보고서)

: 단계를 구성하는 단위 활동으로, 물리적 또는 논리적 품질검토 항목

③ 스탭 (보고서 구성요소) 

: 워크 패키지에 해당됨. 입력자료(Input)와 처리및 도구 (process, tool), 출력자료(output)으로 구성

 

[KDD 분석 방법론] 

1. 개요

- 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터마이닝 프로세스 

* 데이터마이닝: 많은 데이터 가운데 숨겨진 유용한 상관관계를 발견하여 미래에 실행가능한 정보를 추출해내고 의사결정에 이용하는 과정 

 

2. 분석 절차 (5단계) 

1) 데이터셋 선택 

- 데이터 분석에 필요한 데이터를 선택하는 단계로, 목표데이터(target data)를 구성

- 데이터셋 선택에 앞서 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수 

2) 데이터 전처리

- 불필요한 데이터 식별 (잡음, 이상치, 결측치 등) 하여 데이터를 정제하는 과정

- 추가로 요구되는 데이터셋이 있으면 앞단계 재실행

3) 데이터변환

- 정제된 데이터를 분석 목적에 맞게 변수 생성, 선택, 데이터의 차원을 축소 

- 데이터마이닝을 진행하기 위해 '학습용데이터 (training data)'와 '검증용데이터(test data)'로 분리하는 단계

4) 데이터마이닝

- 학습용데이터를 이용하여 분석목적에 맞는 데이터 마이닝 기법을 선택, 적절한 알고리즘을 적용

- 필요에 따라 데이터 전처리&변환 프로세스를 추가로 실행 

5) 데이터 마이닝 결과평가 

- 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인

- 데이터마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련 

 

[CRISP-DM 분석 방법론]  *KDD와의 비교 분석필수

1. 4레벨 구조

- 계층적 프로세스 모델로써 4가지 레벨로 구성됨 

① 단계 (phases) : 최상위 구조인 '단계'가 다시 6가지로 세분화됨 

② 일반화 태스크 (generic tasks)

③ 세분화 태스크 (specialized tasks)

④ 프로세스 실행 (process instances) 

 

2. 6단계 프로세스 

- 각 단계는 단방향이 아닌 단계 간 피드백을 주고받는 구조로써 단계별 완성도 높이게 되어 있음

1) 업무이해 

- 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계

- 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고, 초기 프로젝트 계획을 수립하는 단계

2) 데이터 이해

- 분석을 위한 데이터를 수집하고, 데이터 속성을 이해

- 데이터 품질에 대한 문제점 식별하고, 숨겨진 인사이트 발견하는 단계

3) 데이터 준비

- 분석 위해 수집된 데이터에서 분석기법에 적합한 데이터를 편성 

- 분석용 데이터셋 선택, 데이터 정제

4) 모델링

- 다양한 모델링 기법과 알고리즘을 선택, 모델의 과적합 문제를 확인

- 모델링 기법선택, 모델 작성, 모델평가

5) 평가

- 모델링 결과가 프로젝트 목적에 부합하는지 평가

- 분석결과 평가, 모델링 과정평가, 모델 적용성 평가 

6) 전개

- 완성된 모델을 실 업무에 적용하기 위한 계획을 수립 

 

[빅데이터 분석 방법론] 

1. 3계층 프로세스

① 단계 phase 

② 테스크 task

③ 스텝 step 

 

2. 5단계 구성요소

*데이터준비->데이터분석 : 피드백이 반복적으로 일어날 수 있는 단계 

분석기획 데이터준비 데이터분석 시스템구현 평가 및 전개
-비즈니스 이해 및 범위설정
-프로젝트 정의 및 계획수립
-프로젝트 위험계획수립
-필요 데이터 정의
-데이터스토어 설계
-데이터 수집 및 적합성 점검
-분석용 데이터 준비
-텍스트분석 (비정형)
-탐색적분석
-모델링
-모델 평가 및 검증
-모델 적용 및 운영방안 수립
- 설계 및 구현
- 시스템 테스트 및 운영
- 모델 발전계획 수립
- 프로젝트 평가 및 보고

 

'ADsP > 2과목' 카테고리의 다른 글

2-2. 분석과제 발굴 방법론 (하향식, 상향식)  (0) 2022.09.12