3과목 6

[3과목] 3-5. 정형데이터 마이닝 (4) 군집분석

1. 군집분석 (1) 개념 -각 객체의 유사성을 측정하여 유사성이 높은 대상 집단 분류 -데이터들 사이의 거리를 기준으로 군집화 - 요인분석은 유사한 변수(열단위에 해당)를 함께 묶는 것이 목적이라면, 군집분석은 행(레코드) 값을 묶는 것 - 판별분석은 사전에 집단이 나누어져 있는 자료를 통해 새로운 데이터를 기존 집단에 할당하는 것이 목적 2. 거리 측정 (1) 연속형 변수인 경우 ① 유클리디안 거리 - 데이터 간 유사성 측정 시 사용하는 거리 - 통계적 개념이 내포되어 있지 않아, 변수들의 산포 정도가 감안되지 않음 ② 표준화 거리 : 표준편차로 척도 변환 후 유클리드안 거리를 계산하는 방법 ③ 마할라노비스 거리 : 통계적 개념이 포함된 거리며, 변수들의 산포를 고려하여 표준화한 거리 ④ 체비셰프 거..

ADsP/3과목 2022.10.04

[3과목] 3-5 정형 데이터마이닝 (1) 개요

1. 데이터마이닝 - 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 - 통계분석은 일부 데이터를 갖고 가설/가정에 따라 검증하는 과정이라면, 데이터마이닝은 알고리즘을 이용해 대용량의 데이터를 활용하는 것 정보를 찾는 방법론에 따른 종류 분석대상, 활용목적,표현방법에 따른 분류 인공지능 의사결정나무 K-평균군집화 연관분석 회귀분석 로짓분석 최근접이웃 시각화분석 분류 군집화 예측 2. 데이터마이닝 분석방법 지도학습 supervised learning : 목적변수가 있는 경우 비지도학습 unsupervised learning : 목적변수가 없는 경우 의사결정나무 인공신경망 일반화 선형 모형 회귀분석 로지스틱회귀분석 사례기반 추론 최근접 이웃법 OLAP 연관성 규칙발견 군집분석 ..

ADsP/3과목 2022.10.02

[3과목] 3-4. 통계분석 (1)통계분석 이해

1. 통계란? - 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 2. 통계 자료의 획득 방법 1) 총조사/ 전수조사 census - 대상 집단 모두를 조사하는데 많은 비용과 시간이 소요되므로, 특별한 경우를 제외하고는 사용 안함 (인구주택 총조사) 2) 표본조사 - 대부분의 설문조사는 표본조사로 진행되며, 모집단에서 샘플을 추출하여 진행하는 조사 - 표본조사 시 모집단의 정의, 표본크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야! 모집단 population 조사하려는 대상 집단 전체 원소 element 모집단을 구성하는 개체 표본 sample 조사를 위해 추출한 모집단의 일부 원소 모수 parameter -표본 관측에 의해 구하고자 하는 모집단에 대한 정..

ADsP/3과목 2022.09.25

[3과목] 3-2. R기초 (2) 매트릭스 & 데이터프레임

#2차원 데이터의 저장 [매트릭스/ 행렬] matrix: 전체의 데이터 타입이 동일한 구조여야 함. (숫자로만 or 문자로만) - 행과 열이 존재 - nrow 행의수 / ncol 열의수 = 지정을 통해서 행과 열의 갯수 설정 가능 - 근데 행열을 직접 만드는 경우는 거의 없이 데이터를 파일에서 불러옴 z m1 m1 [데이터프래임 data frame] - 숫자와 문자를 섞어서 저장 가능, 하지만 column 내에서는 동일한 타입이어야! -data.frame() 함수로 생성 ciry

ADsP/3과목 2022.09.18

[3과목] 3-1. 데이터분석 개요

1. 데이터 처리 1) 활용 - 데이터웨어하우스 (DW)나 데이터마트(DM)을 통해 분석 데이터를 가져온다. - 신규 시스템이나 DW에 포함되지 못한 경우, 기존 운영시스템 / 스테이징영역 / ODS에서 데이터를 가져와 DW의 내용과 결합하여 활용 가능하다 - 기존 운영시스템에 직접 접근하는 건 위험한 일이고, 스테이징 영역 데이터는 운영시스템 내용이 임시 저장된 것이기 때문에, 가장 이상적인 활용법은 클린징 영역인 'ODS'에서 데이터의 전처리 후 DW나 DM과 결합해 사용하는 것. 2) 최종 데이터 구조로의 가공 ① 데이터 마이닝 분류 : 분류값과 입력변수를 연관시켜 인구통계, 요약변수, 파생변수 등을 산출 ② 정형화된 패턴 처리 : 비정형데이터/ 소셜데이터는 정형화한 패턴으로 처리 필요 ⒜ 비정형 ..

ADsP/3과목 2022.09.15