데이터분석준전문가 9

[3과목] 3-5. 정형데이터마이닝 (2) 분류분석

1. 분류분석 - 범주형 속성의 값 (명목/순서척도) 이 어떤 그룹에 속하는지 예측하는 데 사용 - 분류기법 : 로지스틱회귀분석, 의사결정나무, 베이지안분류, 인공신경망, SVM 등을 활용 - 사기방지모형, 이탈모형, 고객세분화 모형 등을 개발할 때 활용하는 데이터마이닝 방법론 cf) 예측분석 - 예측은 '연속형' 속성의 값을 알아맞히는 것 - 시계열분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 데이터를 예측하는 것 2. 로지스틱 회귀분석 - 선형회귀의 종속변수는 일반적으로 연속적인 정규분포를 가짐 - 종속변수가 범주형 (예/아니오, 1/0, 합격/불합격) 일 때 로지스틱 회귀분석을 통해 분석 - 종속변수를 0과 1의 범주형으로 표현 가능하며, 회귀분석보다는 '분류모델'에 더 가깝다 - 시그모이드함..

ADsP/3과목 2022.10.02

[3과목] 3-5 정형 데이터마이닝 (1) 개요

1. 데이터마이닝 - 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 - 통계분석은 일부 데이터를 갖고 가설/가정에 따라 검증하는 과정이라면, 데이터마이닝은 알고리즘을 이용해 대용량의 데이터를 활용하는 것 정보를 찾는 방법론에 따른 종류 분석대상, 활용목적,표현방법에 따른 분류 인공지능 의사결정나무 K-평균군집화 연관분석 회귀분석 로짓분석 최근접이웃 시각화분석 분류 군집화 예측 2. 데이터마이닝 분석방법 지도학습 supervised learning : 목적변수가 있는 경우 비지도학습 unsupervised learning : 목적변수가 없는 경우 의사결정나무 인공신경망 일반화 선형 모형 회귀분석 로지스틱회귀분석 사례기반 추론 최근접 이웃법 OLAP 연관성 규칙발견 군집분석 ..

ADsP/3과목 2022.10.02

[3과목] 3-4.통계분석 (4) 시계열분석

1. 시계열자료 1) 개념 - 시간의 흐름에 따라 관찰된 값을 시계열 자료라고 칭함 - 시계열 데이터 분석을 통해 '미래의 값을 예측' 하고 경향, 주기, 계절성 등을 파악 - 시계열 데이터의 모델링은 다른 분석모형과 같이 탐색목적과 예측목적으로 나눌 수 있음 - 분석의 주목적은 외부인자와 관련해 계절적인 패턴, 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것 - 잡음(noise)는 무작위적인 변동이며, 원인을 알 수 없음 2) 자료 종류 : '정상성'을 기준으로 분류됨 ① 비정상성 시계열 자료 : 다루기 어려운 자료로 대부분의 시계열자료가 이에 해당 ② 정상성 시계열 자료: 비정상 시계열을 핸들링 통해 다루기 쉬운 시계열 자료로써 '변환' 한 자료 2. 정상성이란? -시계열의 수준과 분산에 체계..

ADsP/3과목 2022.10.01

[3과목] 3-4. 통계분석 (3) 회귀분석

1. 회귀분석 1) 기초 정의 - 하나 또는 그 이상의 변수들이 또 다른 변수에 미치는 영향을 추론하는 통계기법 - (Y) 반응변수, 종속변수, 결과변수 - (X) 설명변수, 독립변수, 예측변수 2) 선형회귀 분석의 가정 ① 선형성: 입력변수와 출력변수의 관계가 선형이다 ② 등분산성: 오차의 분산이 일정. 산점도 통해 확인 ③ 독립성: 입력변수와 오차는 관계가 없다. Durbin-Watson 통계량으로 독립성 검증 ④ 비상관성: 오차들끼리 상관 없음 ⑤ 정상성: 오차의 분포가 정규분포를 따른다. 3) 회귀 모형의 평가 ① 모형이 통계적으로 유의미한가? : F-통계량의 p-값 < 0.05 확인 ② 개별 회귀계수들이 유의미한가? : 회귀계수의 p-값 < 0.05 확인 *p-값 확인 할 때 'e' 가 뜻하는 ..

ADsP/3과목 2022.10.01

[3과목] 3-3. 데이터마트

1. R reshape을 이용한 데이터 마트 개발 1) 데이터마트 - DW(전사적인 통합베이스) 와 사용자 사이의 중간층에 위치함 - 하나의 주제나 부서 중심으로 특화되어 있는 데이터 - DM의 데이터는 대부분 DW에서 복제되며 얘네가 DM에서 가장 중요한 데이터 - 하지만 자체적으로 수집될 수도 있고, 관계형 데이터베이스나 다차원 데이터베이스를 이용하여 구축 - CRM관련 업무 중에서는 고객DM구축이 핵심임 -DM을 어떻게 구축하는가에 따라 데이터 분석 효과가 크게 차이남 2) 변수 - 받아온 데이터를 처리과정을 통해 분석에 적절하게 활용할 수 있는 자료로 변환해야 -이렇게 만들어지는 변수는 요약변수와 파생변수로 나뉨 ① 요약변수 -DM에서 가장 기본적인 변수로 '총구매금액' '금액' '횟수' '구매여..

ADsP/3과목 2022.09.19

[3과목] 3-1. 데이터분석 개요

1. 데이터 처리 1) 활용 - 데이터웨어하우스 (DW)나 데이터마트(DM)을 통해 분석 데이터를 가져온다. - 신규 시스템이나 DW에 포함되지 못한 경우, 기존 운영시스템 / 스테이징영역 / ODS에서 데이터를 가져와 DW의 내용과 결합하여 활용 가능하다 - 기존 운영시스템에 직접 접근하는 건 위험한 일이고, 스테이징 영역 데이터는 운영시스템 내용이 임시 저장된 것이기 때문에, 가장 이상적인 활용법은 클린징 영역인 'ODS'에서 데이터의 전처리 후 DW나 DM과 결합해 사용하는 것. 2) 최종 데이터 구조로의 가공 ① 데이터 마이닝 분류 : 분류값과 입력변수를 연관시켜 인구통계, 요약변수, 파생변수 등을 산출 ② 정형화된 패턴 처리 : 비정형데이터/ 소셜데이터는 정형화한 패턴으로 처리 필요 ⒜ 비정형 ..

ADsP/3과목 2022.09.15

2-2. 분석과제 발굴 방법론 (하향식, 상향식)

[분석과제 발굴 방법론] 1. 개요 - 분석 과제는 풀어야 할 다양한 문제를 데이터 분석 문제로 변환한 후 관계자들이 수행할 수 있는 '과제 정의서 형태'로 도출됨 - 분석과제를 도출하기 위한 방식으로는 크게 하향식 접근방법 / 상향식 접근방법이 존재 - 최적의 의사결정은 두 접근 방식이 상호 보완관계에 있을 때 가능 대상 방법 최적화 통찰 솔루션 발견 TOP-DOWN 접근 (Problem Solving) Bottom-UP 접근 (Problem Creator) [하향식 접근방법] - 논리적인 단계별 접근법으로, 각 과정이 체계적으로 단계화되어 수행하는 방식 - 솔루션 도출에는 유용하나 새로운 문제 탐색에는 한계 존재 문제탐색 문제정의 해결방안탐색 타당성검토 1) 비즈니스모델기반 문제탐색 2) 분석기회 발..

ADsP/2과목 2022.09.12

ADsp 1과목 요약 정리 (3)

1절/ 빅데이터 분석과 전략 인사이트 1. 빅데이터 열풍과 회의론 회의론이 나오고 있으나, 우리가 빅데이터 분석에서 찾을 수 있는 수많은 가치들을 제대로 발굴해 보기도 전에 그 활용 자체를 차단해 버릴 수 있다. 2. 빅데이터 회의론의 원인 및 진단 1) 투자 효과를 거두지 못했던 부정적 학습효과 - 과거의 고객관계관리CRM 2) 빅데이터 성공사례 중 기존 분석 프로젝트를 포함해 놓은 것이 많다. - 굳이 빅데이터가 필요 없는 경우, 국내 빅데이터 업체들의 과대포장 : 단순히 빅데이터에 포커스를 두지 말고, 분석을 통해 '가치를 만드는 것'에 집중해야 한다. 3. 빅데이터 분석, BIG이 핵심이 아니다. 데이터는 크기의 이슈가 아니라, 거기서 어떤 시각과 통찰을 얻을 수 있느냐의 문제가 중요함. 4. 일..

ADsP/1과목 2022.09.01

ADsp 1과목 요약 정리 (1)

1절. 데이터와 정보 1. 데이터의 정의와 특성 1) 데이터의 정의 - 과거의 관념적이고 추상적인 개념에서 > 기술적이고 사실적인 의미로 변화 - 데이터는 추론과 추정의 근거를 이루는 사실이다 (옥스퍼드 대사전) - 다른 객체와의 상호관계 속에서 가치를 갖는 것 2) 데이터의 특성 - 존재적 특성: 객관적 사실 (fact, raw material) - 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거 (basis) 2. 데이터의 유형 1) 정성적 데이터 - 언어, 문자등의 형태로 비정형데이터 - 주관적 내용이며 통계 분석이 어려움 2) 정량적 데이터 -수치, 도형, 기호등의 정형데이터 -객관적 내용이며 통계 분석이 용이함 3. 지식 경영의 핵심 이슈 - 데이터는 지식 경영의 핵심 이슈인 '암묵지'와..

ADsP/1과목 2022.08.28