빅데이터개념 2

[3과목] 3-5. 정형데이터 마이닝 (4) 군집분석

1. 군집분석 (1) 개념 -각 객체의 유사성을 측정하여 유사성이 높은 대상 집단 분류 -데이터들 사이의 거리를 기준으로 군집화 - 요인분석은 유사한 변수(열단위에 해당)를 함께 묶는 것이 목적이라면, 군집분석은 행(레코드) 값을 묶는 것 - 판별분석은 사전에 집단이 나누어져 있는 자료를 통해 새로운 데이터를 기존 집단에 할당하는 것이 목적 2. 거리 측정 (1) 연속형 변수인 경우 ① 유클리디안 거리 - 데이터 간 유사성 측정 시 사용하는 거리 - 통계적 개념이 내포되어 있지 않아, 변수들의 산포 정도가 감안되지 않음 ② 표준화 거리 : 표준편차로 척도 변환 후 유클리드안 거리를 계산하는 방법 ③ 마할라노비스 거리 : 통계적 개념이 포함된 거리며, 변수들의 산포를 고려하여 표준화한 거리 ④ 체비셰프 거..

ADsP/3과목 2022.10.04

[3과목] 3-5. 정형 데이터마이닝 (3) 앙상블분석

1. 앙상블기법 1) 개념 - 과대적합/ 과소적합의 문제를 해결하기 위해, 여러 개의 분류기를 활용하여 앙상블을 이루도록 만든 것 - 여러 예측모형을 조합하여 하나의 최종 예측 모형을 만드는 방법 - 다중모델조합, 분류기조합 등이 존재 2. 앙상블 기법의 종류 1) 배깅 - 분석용 데이터로부터 여러 개의 붓스트랩(bootstrap) 데이터 생성 - 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 다수결을 통해 최종 예측모형 결정 - 배깅에서는 가지치기를 하지 않고, 최대로 성장한 의사결정나무들을 활용 *붓스트랩 (bootstrap) : 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료 **보팅 (voting) : 여러개의 모형으로부터 산출된 결과를 다수결에 의해 최종 결과를 선정하는 과정 ..

ADsP/3과목 2022.10.03