1. 데이터 처리
1) 활용
- 데이터웨어하우스 (DW)나 데이터마트(DM)을 통해 분석 데이터를 가져온다.
- 신규 시스템이나 DW에 포함되지 못한 경우, 기존 운영시스템 / 스테이징영역 / ODS에서 데이터를 가져와 DW의 내용과 결합하여 활용 가능하다
- 기존 운영시스템에 직접 접근하는 건 위험한 일이고, 스테이징 영역 데이터는 운영시스템 내용이 임시 저장된 것이기 때문에, 가장 이상적인 활용법은 클린징 영역인 'ODS'에서 데이터의 전처리 후 DW나 DM과 결합해 사용하는 것.
2) 최종 데이터 구조로의 가공
① 데이터 마이닝 분류 : 분류값과 입력변수를 연관시켜 인구통계, 요약변수, 파생변수 등을 산출
② 정형화된 패턴 처리 : 비정형데이터/ 소셜데이터는 정형화한 패턴으로 처리 필요
⒜ 비정형 데이터 : '텍스트 마이닝' 거쳐 DM과 통합
⒝ 관계형 데이터 : '사회 신경망 분석' 거쳐 DM과 통합 활용
2. 시각화 그래프
- 시각화는 가장 낮은 수준의 분석이지만, 잘 사용하면 복잡한 분석보다도 유용
- 빅데이터 분석과 탐색적 분석 시 시각화는 필수
- SNA 분석(사회 신경망 분석) 시 자주 활용 됨.
3. 공간분석 (GIS)
- 공간적 차원과 관련 속성들을 시각화하는 분석
- 지도 위에 관련 속성들을 생성하고, 크기 모양 굵기 등으로 구분하여 인사이트 얻음
4. 탐색적 자료 분석 (EDA)
1) 설명
- 다양한 차원의 값을 조합해 의미있는 내용을 도출, 분석의 최종 목적을 달성해 나가는 과정
- 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들의 통칭
- 데이터에 대한 전반적인 이해를 통해 분석 가능한 데이터인지 확인하는 단계
- 데이터에 포함된 변수의 유형이 어떻게 되는지를 찾아가는 과정
- 알고리즘이 학습을 얼마나 잘 하는지는 전적으로 데이터 품질과 데이터에 담긴 정보량에 달려있다
- 데이터 시각화 (상자그림 Box Plot 등) 를 통해 이상점(outlier) 식별이 가능하다
2) 4가지 주제
- 저항성의 강조
- 잔차 계산
-자료 변수의 재표현
-그래프를 통한 현시성
3) 탐색적 분석의 효율 예시 : 아래 3가지 단계에서 활용 중
- 데이터 이해 단계 (변수의 분포와 특성 파악)
- 변수생성 단계 (분석 목적에 맞는 주요 요약 및 파생변수 생성)
- 변수선택 단계 ( 목적변수에 의미있는 후보 변수 선택)
5. 통계 분석
1) 통계 : 어떤 현상을 한눈에 알아보기 쉽도록 일정 체계에 따라 나타내는 것
2) 기술 분석 : 모집단으로 부터 표본 추출하여, 표본이 갖고 있는 정보를 쉽게 파악 가능하게끔 표현하는 절차
3) 추측(추론)통계: 표본의 표본통계량으로부터, 모수에 대해 통계적으로 추론하는 절차
6. 데이터마이닝
1) 내용: 대용량 자료로부터 관계, 패턴, 규칙 등을 탐색하고 모형화하여 유용한 지식을 추출하는 분석방법
2) 방법론
① 데이터베이스에서의 지식탐색
- DW에서 DM을 생성하면서 각 데이터들의 속성을 사전분석 통해 지식을 얻는 방법
② 기계 학습
- 인공지능의 한 분야로 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개발하는 분야
- 인공신경망, 의사결정나무, 클러스터링, 베이지안분류, SVM 등이 존재
③ 패턴인식
- 원자료를 이용해 자료 또는 패턴을 분류하는 방법
- 장바구니 분석, 연관 규칙 등이 존재
3) 평가 기준 : 모델링 성능 평가 시 활용하는 기준
-정확도, 정밀도, 디렉트레이트, 리프트 등의 값으로 판단
(cf: 시뮬레이션에서는 throughput, average waiting time, average queue length, time in system 등의 지표 활용)
'ADsP > 3과목' 카테고리의 다른 글
[3과목] 3-4. 통계분석 (1)통계분석 이해 (1) | 2022.09.25 |
---|---|
[3과목] 3-3.데이터 마트 (2) 데이터 가공&관리 (0) | 2022.09.21 |
[3과목] 3-3. 데이터마트 (2) | 2022.09.19 |
[3과목] 3-2. R기초 (2) 매트릭스 & 데이터프레임 (0) | 2022.09.18 |
[3과목] 3-2. R 기초 (1) 변수& 벡터 (0) | 2022.09.17 |