1. 군집분석
(1) 개념
-각 객체의 유사성을 측정하여 유사성이 높은 대상 집단 분류
-데이터들 사이의 거리를 기준으로 군집화
- 요인분석은 유사한 변수(열단위에 해당)를 함께 묶는 것이 목적이라면, 군집분석은 행(레코드) 값을 묶는 것
- 판별분석은 사전에 집단이 나누어져 있는 자료를 통해 새로운 데이터를 기존 집단에 할당하는 것이 목적
2. 거리 측정
(1) 연속형 변수인 경우
① 유클리디안 거리
- 데이터 간 유사성 측정 시 사용하는 거리
- 통계적 개념이 내포되어 있지 않아, 변수들의 산포 정도가 감안되지 않음
![]() |
![]() |
② 표준화 거리 : 표준편차로 척도 변환 후 유클리드안 거리를 계산하는 방법
![]() |
③ 마할라노비스 거리 : 통계적 개념이 포함된 거리며, 변수들의 산포를 고려하여 표준화한 거리
![]() |
④ 체비셰프 거리:
![]() |
![]() |
⑤ 맨하탄 거리 : 건물에서 건물 사이의 최단 거리를 구하기 위해 고안됨
![]() |
![]() |
⑥ 민코우스키 거리 : 맨하탄과 유클리디안 거리를 한번에 표현한 공식
![]() |
(2) 범주형 변수의 경우
① 자카드 거리 : 객체 집합 간의 거리 표현 방식으로 두 집합이 얼마나 유사한 지 알 수 있음
② 자카드 계수: 두 집한 간의 유사도를 측정하는 방식으로 두집합이 동일하면 1의 값, 공통원소 없으면 0으로 표현
③ 코사인 거리 : 문서의 유사도를 기준으로 분류 혹은 그룹핑할 때 유용
④ 코사인 유사도:
![]() |
3. 계층적군집분석
1) 개념 : n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법
2) 군집화 단계
- 거리 행렬을 기준으로 덴드로그램 그리기
- 덴드로그램 최상단부터 세로축 개수에 따라 가로선을 그어 군집 개수 선택
- 각 객체들의 구성을 고려하여 적절한 군집수 선정
3) 군집 간 거리 측정법
종류 | 설명 |
최단연결법 single | 거리가 가장 가까운 데이터를 묶어서 군집 형성 군집 간의 데이터를 최단거리 기준으로 거리행렬 수정 진행 |
최장연결법 complete | 군집 간의 데이터를 최장거리 기준으로 거리행렬 수정 진행 |
평균연결법 average | 군집 간의 데이터를 평균거리 기준으로 거리행렬 수정 진행 |
와드연결법 ward linkage | 군집내 편차들의 체곱합을 고려한 방법 군집 간 정보 손실을 최소화하기 위해 군집화 진행 |
4. 비계층적 군집분석
1) 특징
- n개의 개체를 g개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화한 군집을 형성
- 자료 양에 제약이 없기에, 데이터 양이 많은 경우 주로 비계층적 분석법을 사용
2) K-평균 군집 분석 (K-means clustering)
- 한 번 군집이 형성되더라도, 다른 군집으로 이동 가능하다
- 거리 계산을 통한 군집화로 연속형 변수에 활용 가능
- 초기 중심값은 임의 선택이 가능하며, 가급적 멀리 떨어져 있는 게 좋음
장점 | 단점 |
- 분석 방법 적용이 용이 - 계층적 군집분석 대비 많은 양의 데이터 다룰 수 있음 - 사전정보 없어도 의미있는 자료구조 찾을 수 있음 - 다양한 형태의 데이터에 적용 가능 |
- 군집의 수, 가중치와 거리 정의가 어려움 - 사전에 주어진 목적이 없기에 결과 해석 어려움 - 잡음이나 이상값의 영향 많이 받음 - 초기 군집수 결정에 어려움이 있음 (*해결 위해 밑의 방식) |
* 초기 군집수 결정! 즉, 최적의 K를 찾기 위해서 활용하는 방법 (링크) ① elbow 방법: - [군집간분석/ 전체분산] 비율을 보고 k를 결정 - 그래프 상 팔꿈치 모양으로 꺾이는 지점의 k를 최적 군집 개수로 선택하는 방법 ② 실루엣 계수: - 객체와 그 객체가 속한 군집의 데이터들과의 비유사성(dissimilarity)를 계산하는 방법 |
5. 혼합분포 군집
1) 개념
- 데이터가 k개의 모수적 모형(정규분포 혹은 다변량 분포를 가정)의 가중합으로 표현되는 모집단 모형으로 부터 나왔다는 가정하에서, 모수와 함께 가중치를 자료로부터 추정하는 방법
- k개의 각 모형은 군집을 의미하여, 각 데이터는 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집의 분포가 이뤄짐
- 모수와 가중치의 추정에는 EM 알고리즘을 사용
2) EM알고리즘 진행 과정
- 각 자료에 대해 Z의 조건부분포(어느 집단에 속하는가)로부터, 조건부 기댓값 구할 수 있음
- E단계: 잠재변수 Z의 기대치 계산
- M단계: 잠재변수 Z의 기대치를 이용하여 파라미터 추정
6. SOM (Self Organizing Map) : 자기조직화지도 알고리즘
1) 특징
- 비지도 신경망으로, 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬
- 실제 공간의 입력변수가 가까이 있으면 지도상에서도 가까이 위치
- 지도 형태로 형상화하기에 시각적으로 이해가 쉽고 패턴 발견, 이미지 분석 등에 뛰어남
- 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운 지 계산하여, 연결 강도를 반복적으로 재조정해 학습
- 입력 층의 표본 벡터에 가장 가까운 프로토타입 벡터를 선택해 BMU(Best Matching Unit)라고 칭함
2) SOM vs. 신경망모형
SOM | 신경망 |
하나의 전방 패스를 사용 비지도학습법 속도가 매우 빠르고, 실시간 학습 처리가 가능 |
역전파 알고리즘 사용 지도학습법 |
'ADsP > 3과목' 카테고리의 다른 글
[3과목] 3-5. 정형 데이터마이닝 (3) 앙상블분석 (0) | 2022.10.03 |
---|---|
[3과목] 3-5. 정형데이터마이닝 (2) 분류분석 (0) | 2022.10.02 |
[3과목] 3-5 정형 데이터마이닝 (1) 개요 (0) | 2022.10.02 |
[3과목] 3-4.통계분석 (4) 시계열분석 (0) | 2022.10.01 |
[3과목] 3-4. 통계분석 (3) 회귀분석 (0) | 2022.10.01 |