[분석 기획]
1. 분석기획
- 실제 분석을 수행하기에 앞서 '분석 과제 정의' 하고, 의도한 결과를 도출하고 관리할 수 있는 방안을 사전에 계획하는 것
- 데이터 사이언티스트는 '수학/통계지식' + ' 정보기술' + '비즈니스에 대한 이해' 가 필요
2. 분석 주제의 4가지 유형
: 분석의 대상(what)과 방법(how)에 따라 4가지로 나뉘어짐
대상 | ||
방법 | 최적화 | 통찰(인사이트) |
솔루션 | 발견 |
3. 목표시점 별 분석 기획 방안
1) 과제 중심적 접근 방법: 당면한 분석 주제의 해결
2) 장기적인 마스터 플랜: 지속적인 분석 내재화
과제 중심적 방식 | 마스터플랜 방식 | |
1차목표 | 스피드, 테스트 | 정확도, 효율적사용 |
과제 유형 | quick, win | long term view |
접근 방식 | problem solving | problem definition |
4. 분석 기획 시 고려사항
1) 가용데이터
- 분석을 위한 데이터 확보
- 데이터 유형에 따라 적용 가능한 솔류션 및 분석 방법이 다르기 때문
2) 적절한 활용 방안 및 use case
- 기존에 잘 구현되어 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요
2) 장애 요소에 대한 사전계획 수립
- 가격, 퍼포먼스 등 변화 관리 고려 필요
5. 데이터 종류
종류 | 정형데이터 | 반정형 | 비정형 |
특징 | 데이터 자체로 분석가능 RDBMS 구조의 데이터 데이터베이스로 관리 |
데이터로 분석 가능하지만, 메타정보 활용해야 해석이 가능 | 데이터 자체로 분석이 불가능 특정 처리 프로세스를 거쳐 분석데이터로 변경 후 분석 |
유형 | ERP, CRM, SCM 등 | 로그, 모바일, 센싱데이터 | 영상, 음성 |
[분석 방법론]
1. 분석 방법론 개요
1) 특징
-데이터 분석이 효과적으로 기업 내에 정착하기 위해서는 이를 체계화한 절차와 방법이 정리된 '데이터 분석 방법론의 수립'이 필수적
-방법론은 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성되어 어느 정도의 지식만 있으면 활용 가능해야 함
2) 데이터 기반 의사결정의 필요성
- 기업의 합리적 의사결정을 가로막는 장애요소에는, 고정관념/ 편향된 생각/ 프레이밍 효과 등이 존재
*프레이밍 효과: 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상
3) 방법론의 생성 과정
방법론 ---(내재화)---> 암묵지 ---(형식화)---> 형식지 ---(체계화)---> 방법론
의미 | 특징 | 상호작용 | |
암묵지 | 학습과 경험을 통해 개인에게 체화되어 있지만, 겉으로 드러나지 않는 지식 | 사회적으로 중요하지만 다른사람에게 공유되기는 어려움 | 내면화 - 공통화 |
형식지 | 문서나 메뉴얼처럼 형상화된 지식 | 전달과 공유가 용이함 | 표출화 -연결화 |
4) 방법론 모델
① 폭포수 모델
- 단계를 순차적으로 진행하는 방법
- 이전 단계가 완료되어야 다음 단계로 진행될 수 있으며, 문제 발견될 시 피드백 과정 수행됨
② 프로토타입 모델
- 고객의 요구를 완전하게 이해하고 있지 못하거나, 완벽한 요구 분석의 어려움을 해결하기 위해 일부분을 우선 개발하여 사용자에게 제공
- 테스트 결과를 통한 개선 작업을 시행하는 모델
③ 나선형 모델
- 반복을 통해 점증적으로 개발하는 방법
- 처음 시도하는 프로젝트에 적용이 용이하지만, 관리 체계 잘 갖추지 못한 경우 복잡도 상승하여 프로젝트 진행 어려운 수 있음
5) 방법론의 구성
① 단계 (단계별 완료 보고서)
: 최상위 계층으로 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성됨.
② 태스크 (보고서)
: 단계를 구성하는 단위 활동으로, 물리적 또는 논리적 품질검토 항목
③ 스탭 (보고서 구성요소)
: 워크 패키지에 해당됨. 입력자료(Input)와 처리및 도구 (process, tool), 출력자료(output)으로 구성
[KDD 분석 방법론]
1. 개요
- 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터마이닝 프로세스
* 데이터마이닝: 많은 데이터 가운데 숨겨진 유용한 상관관계를 발견하여 미래에 실행가능한 정보를 추출해내고 의사결정에 이용하는 과정
2. 분석 절차 (5단계)
1) 데이터셋 선택
- 데이터 분석에 필요한 데이터를 선택하는 단계로, 목표데이터(target data)를 구성
- 데이터셋 선택에 앞서 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수
2) 데이터 전처리
- 불필요한 데이터 식별 (잡음, 이상치, 결측치 등) 하여 데이터를 정제하는 과정
- 추가로 요구되는 데이터셋이 있으면 앞단계 재실행
3) 데이터변환
- 정제된 데이터를 분석 목적에 맞게 변수 생성, 선택, 데이터의 차원을 축소
- 데이터마이닝을 진행하기 위해 '학습용데이터 (training data)'와 '검증용데이터(test data)'로 분리하는 단계
4) 데이터마이닝
- 학습용데이터를 이용하여 분석목적에 맞는 데이터 마이닝 기법을 선택, 적절한 알고리즘을 적용
- 필요에 따라 데이터 전처리&변환 프로세스를 추가로 실행
5) 데이터 마이닝 결과평가
- 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인
- 데이터마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련
[CRISP-DM 분석 방법론] *KDD와의 비교 분석필수
1. 4레벨 구조
- 계층적 프로세스 모델로써 4가지 레벨로 구성됨
① 단계 (phases) : 최상위 구조인 '단계'가 다시 6가지로 세분화됨
② 일반화 태스크 (generic tasks)
③ 세분화 태스크 (specialized tasks)
④ 프로세스 실행 (process instances)
2. 6단계 프로세스
- 각 단계는 단방향이 아닌 단계 간 피드백을 주고받는 구조로써 단계별 완성도 높이게 되어 있음
1) 업무이해
- 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계
- 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고, 초기 프로젝트 계획을 수립하는 단계
2) 데이터 이해
- 분석을 위한 데이터를 수집하고, 데이터 속성을 이해
- 데이터 품질에 대한 문제점 식별하고, 숨겨진 인사이트 발견하는 단계
3) 데이터 준비
- 분석 위해 수집된 데이터에서 분석기법에 적합한 데이터를 편성
- 분석용 데이터셋 선택, 데이터 정제
4) 모델링
- 다양한 모델링 기법과 알고리즘을 선택, 모델의 과적합 문제를 확인
- 모델링 기법선택, 모델 작성, 모델평가
5) 평가
- 모델링 결과가 프로젝트 목적에 부합하는지 평가
- 분석결과 평가, 모델링 과정평가, 모델 적용성 평가
6) 전개
- 완성된 모델을 실 업무에 적용하기 위한 계획을 수립
[빅데이터 분석 방법론]
1. 3계층 프로세스
① 단계 phase
② 테스크 task
③ 스텝 step
2. 5단계 구성요소
*데이터준비->데이터분석 : 피드백이 반복적으로 일어날 수 있는 단계
분석기획 | 데이터준비 | 데이터분석 | 시스템구현 | 평가 및 전개 |
-비즈니스 이해 및 범위설정 -프로젝트 정의 및 계획수립 -프로젝트 위험계획수립 |
-필요 데이터 정의 -데이터스토어 설계 -데이터 수집 및 적합성 점검 |
-분석용 데이터 준비 -텍스트분석 (비정형) -탐색적분석 -모델링 -모델 평가 및 검증 -모델 적용 및 운영방안 수립 |
- 설계 및 구현 - 시스템 테스트 및 운영 |
- 모델 발전계획 수립 - 프로젝트 평가 및 보고 |
'ADsP > 2과목' 카테고리의 다른 글
2-2. 분석과제 발굴 방법론 (하향식, 상향식) (0) | 2022.09.12 |
---|