ADsP 17

[3과목] 3-5. 정형데이터 마이닝 (4) 군집분석

1. 군집분석 (1) 개념 -각 객체의 유사성을 측정하여 유사성이 높은 대상 집단 분류 -데이터들 사이의 거리를 기준으로 군집화 - 요인분석은 유사한 변수(열단위에 해당)를 함께 묶는 것이 목적이라면, 군집분석은 행(레코드) 값을 묶는 것 - 판별분석은 사전에 집단이 나누어져 있는 자료를 통해 새로운 데이터를 기존 집단에 할당하는 것이 목적 2. 거리 측정 (1) 연속형 변수인 경우 ① 유클리디안 거리 - 데이터 간 유사성 측정 시 사용하는 거리 - 통계적 개념이 내포되어 있지 않아, 변수들의 산포 정도가 감안되지 않음 ② 표준화 거리 : 표준편차로 척도 변환 후 유클리드안 거리를 계산하는 방법 ③ 마할라노비스 거리 : 통계적 개념이 포함된 거리며, 변수들의 산포를 고려하여 표준화한 거리 ④ 체비셰프 거..

ADsP/3과목 2022.10.04

[3과목] 3-5. 정형 데이터마이닝 (3) 앙상블분석

1. 앙상블기법 1) 개념 - 과대적합/ 과소적합의 문제를 해결하기 위해, 여러 개의 분류기를 활용하여 앙상블을 이루도록 만든 것 - 여러 예측모형을 조합하여 하나의 최종 예측 모형을 만드는 방법 - 다중모델조합, 분류기조합 등이 존재 2. 앙상블 기법의 종류 1) 배깅 - 분석용 데이터로부터 여러 개의 붓스트랩(bootstrap) 데이터 생성 - 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 다수결을 통해 최종 예측모형 결정 - 배깅에서는 가지치기를 하지 않고, 최대로 성장한 의사결정나무들을 활용 *붓스트랩 (bootstrap) : 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료 **보팅 (voting) : 여러개의 모형으로부터 산출된 결과를 다수결에 의해 최종 결과를 선정하는 과정 ..

ADsP/3과목 2022.10.03

[3과목] 3-5. 정형데이터마이닝 (2) 분류분석

1. 분류분석 - 범주형 속성의 값 (명목/순서척도) 이 어떤 그룹에 속하는지 예측하는 데 사용 - 분류기법 : 로지스틱회귀분석, 의사결정나무, 베이지안분류, 인공신경망, SVM 등을 활용 - 사기방지모형, 이탈모형, 고객세분화 모형 등을 개발할 때 활용하는 데이터마이닝 방법론 cf) 예측분석 - 예측은 '연속형' 속성의 값을 알아맞히는 것 - 시계열분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 데이터를 예측하는 것 2. 로지스틱 회귀분석 - 선형회귀의 종속변수는 일반적으로 연속적인 정규분포를 가짐 - 종속변수가 범주형 (예/아니오, 1/0, 합격/불합격) 일 때 로지스틱 회귀분석을 통해 분석 - 종속변수를 0과 1의 범주형으로 표현 가능하며, 회귀분석보다는 '분류모델'에 더 가깝다 - 시그모이드함..

ADsP/3과목 2022.10.02

[3과목] 3-5 정형 데이터마이닝 (1) 개요

1. 데이터마이닝 - 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 - 통계분석은 일부 데이터를 갖고 가설/가정에 따라 검증하는 과정이라면, 데이터마이닝은 알고리즘을 이용해 대용량의 데이터를 활용하는 것 정보를 찾는 방법론에 따른 종류 분석대상, 활용목적,표현방법에 따른 분류 인공지능 의사결정나무 K-평균군집화 연관분석 회귀분석 로짓분석 최근접이웃 시각화분석 분류 군집화 예측 2. 데이터마이닝 분석방법 지도학습 supervised learning : 목적변수가 있는 경우 비지도학습 unsupervised learning : 목적변수가 없는 경우 의사결정나무 인공신경망 일반화 선형 모형 회귀분석 로지스틱회귀분석 사례기반 추론 최근접 이웃법 OLAP 연관성 규칙발견 군집분석 ..

ADsP/3과목 2022.10.02

[3과목] 3-4.통계분석 (4) 시계열분석

1. 시계열자료 1) 개념 - 시간의 흐름에 따라 관찰된 값을 시계열 자료라고 칭함 - 시계열 데이터 분석을 통해 '미래의 값을 예측' 하고 경향, 주기, 계절성 등을 파악 - 시계열 데이터의 모델링은 다른 분석모형과 같이 탐색목적과 예측목적으로 나눌 수 있음 - 분석의 주목적은 외부인자와 관련해 계절적인 패턴, 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것 - 잡음(noise)는 무작위적인 변동이며, 원인을 알 수 없음 2) 자료 종류 : '정상성'을 기준으로 분류됨 ① 비정상성 시계열 자료 : 다루기 어려운 자료로 대부분의 시계열자료가 이에 해당 ② 정상성 시계열 자료: 비정상 시계열을 핸들링 통해 다루기 쉬운 시계열 자료로써 '변환' 한 자료 2. 정상성이란? -시계열의 수준과 분산에 체계..

ADsP/3과목 2022.10.01

[3과목] 3-4. 통계분석 (3) 회귀분석

1. 회귀분석 1) 기초 정의 - 하나 또는 그 이상의 변수들이 또 다른 변수에 미치는 영향을 추론하는 통계기법 - (Y) 반응변수, 종속변수, 결과변수 - (X) 설명변수, 독립변수, 예측변수 2) 선형회귀 분석의 가정 ① 선형성: 입력변수와 출력변수의 관계가 선형이다 ② 등분산성: 오차의 분산이 일정. 산점도 통해 확인 ③ 독립성: 입력변수와 오차는 관계가 없다. Durbin-Watson 통계량으로 독립성 검증 ④ 비상관성: 오차들끼리 상관 없음 ⑤ 정상성: 오차의 분포가 정규분포를 따른다. 3) 회귀 모형의 평가 ① 모형이 통계적으로 유의미한가? : F-통계량의 p-값 < 0.05 확인 ② 개별 회귀계수들이 유의미한가? : 회귀계수의 p-값 < 0.05 확인 *p-값 확인 할 때 'e' 가 뜻하는 ..

ADsP/3과목 2022.10.01

[3과목] 3-4. 통계분석 (2) 기초통계분석

(1) 통계분석이해 [3과목] 3-4. 통계분석 (1)통계분석 이해 1절. 통계분석의 이해 1. 통계란? - 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 2. 통계 자료의 획득 방법 1) 총조사/ 전수조사 census - 대상 집단 모두를 jjou-adblog.tistory.com 1. 기술통계 : 자료의 특성을 표, 그림 등을 사용해 정리/요약하는 것 1) 통계량에 의한 자료 정리 ① 중심 위치의 측도 : 표본평균, 중앙값, 최빈값 ② 산포의 측도: 분산, 표준편차, 사분위수범위 등 ③ 분포의 형태에 관한 측도 c-1. 왜도 : 분포의 비대칭 정도를 나타내는 측도 c-2. 첨도 : 분포의 중심에서 뾰족한 정도 2) 그래프를 이용한 자료 정리 ① 막대그래프 vs ..

ADsP/3과목 2022.10.01

[3과목] 3-4. 통계분석 (1)통계분석 이해

1. 통계란? - 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 2. 통계 자료의 획득 방법 1) 총조사/ 전수조사 census - 대상 집단 모두를 조사하는데 많은 비용과 시간이 소요되므로, 특별한 경우를 제외하고는 사용 안함 (인구주택 총조사) 2) 표본조사 - 대부분의 설문조사는 표본조사로 진행되며, 모집단에서 샘플을 추출하여 진행하는 조사 - 표본조사 시 모집단의 정의, 표본크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야! 모집단 population 조사하려는 대상 집단 전체 원소 element 모집단을 구성하는 개체 표본 sample 조사를 위해 추출한 모집단의 일부 원소 모수 parameter -표본 관측에 의해 구하고자 하는 모집단에 대한 정..

ADsP/3과목 2022.09.25

[3과목] 3-3.데이터 마트 (2) 데이터 가공&관리

1. Data Exploration - 데이터 분석을 위해 변수들의 상태를 파악 - 중요 함수들 ① head(데이터셋) / tail(데이터셋) : 시작/마지막 6개의 record만 조회하는 함수 ② summary(데이터셋) ⓐ 수치형 변수 : 최대값, 최소값, 평균, 1사분위수 등 ⓑ 명목형 변수: 명목값, 데이터 개수 2. 변수 중요도 - 변수 선택법과 유사한 개념으로, 모형을 생성하여 사용된 변수의 중요도를 살피는 과정 - 종류 : klaR 패키지 - 특정 변수가 주어졌을 때 클래스가 어떻게 분류되는지에 대한 '에러율'을 계산, 그래픽으로 결과 보여줌 - greedy. wilks() : 세분화를 위한 stepwise forward 변수선택을 위한 패키지. 종속변수에 가장 영향을 주는 변수를 'wilk..

ADsP/3과목 2022.09.21

[3과목] 3-3. 데이터마트

1. R reshape을 이용한 데이터 마트 개발 1) 데이터마트 - DW(전사적인 통합베이스) 와 사용자 사이의 중간층에 위치함 - 하나의 주제나 부서 중심으로 특화되어 있는 데이터 - DM의 데이터는 대부분 DW에서 복제되며 얘네가 DM에서 가장 중요한 데이터 - 하지만 자체적으로 수집될 수도 있고, 관계형 데이터베이스나 다차원 데이터베이스를 이용하여 구축 - CRM관련 업무 중에서는 고객DM구축이 핵심임 -DM을 어떻게 구축하는가에 따라 데이터 분석 효과가 크게 차이남 2) 변수 - 받아온 데이터를 처리과정을 통해 분석에 적절하게 활용할 수 있는 자료로 변환해야 -이렇게 만들어지는 변수는 요약변수와 파생변수로 나뉨 ① 요약변수 -DM에서 가장 기본적인 변수로 '총구매금액' '금액' '횟수' '구매여..

ADsP/3과목 2022.09.19