ADsP/3과목

[3과목] 3-5. 정형데이터 마이닝 (4) 군집분석

RECORD WHO (레코드후) 2022. 10. 4. 07:00

1. 군집분석

(1) 개념

-각 객체의 유사성을 측정하여 유사성이 높은 대상 집단 분류 

-데이터들 사이의 거리를 기준으로 군집화

- 요인분석은 유사한 변수(열단위에 해당)를 함께 묶는 것이 목적이라면, 군집분석은 행(레코드) 값을 묶는 것

- 판별분석은 사전에 집단이 나누어져 있는 자료를 통해 새로운 데이터를 기존 집단에 할당하는 것이 목적

 

2. 거리 측정 

(1) 연속형 변수인 경우

유클리디안 거리  

- 데이터 간 유사성 측정 시 사용하는 거리

- 통계적 개념이 내포되어 있지 않아, 변수들의 산포 정도가 감안되지 않음

② 표준화 거리 : 표준편차로 척도 변환 후 유클리드안 거리를 계산하는 방법

③ 마할라노비스 거리 : 통계적 개념이 포함된 거리며, 변수들의 산포를 고려하여 표준화한 거리 

체비셰프 거리:

맨하탄 거리 : 건물에서 건물 사이의 최단 거리를 구하기 위해 고안됨

민코우스키 거리 : 맨하탄과 유클리디안 거리를 한번에 표현한 공식

 

(2) 범주형 변수의 경우

① 자카드 거리 : 객체 집합 간의 거리 표현 방식으로 두 집합이 얼마나 유사한 지 알 수 있음

② 자카드 계수: 두 집한 간의 유사도를 측정하는 방식으로 두집합이 동일하면 1의 값, 공통원소 없으면 0으로 표현

③ 코사인 거리 : 문서의 유사도를 기준으로 분류 혹은 그룹핑할 때 유용

코사인 유사도

 

3. 계층적군집분석 

1) 개념 :  n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법

2) 군집화 단계

- 거리 행렬을 기준으로 덴드로그램 그리기

- 덴드로그램 최상단부터 세로축 개수에 따라 가로선을 그어 군집 개수 선택

- 각 객체들의 구성을 고려하여 적절한 군집수 선정

3) 군집 간 거리 측정법

종류 설명
최단연결법 single 거리가 가장 가까운 데이터를 묶어서 군집 형성
군집 간의 데이터를 최단거리 기준으로 거리행렬 수정 진행
최장연결법 complete 군집 간의 데이터를 최장거리 기준으로 거리행렬 수정 진행
평균연결법 average 군집 간의 데이터를 평균거리 기준으로 거리행렬 수정 진행 
와드연결법 ward linkage 군집내 편차들의 체곱합을 고려한 방법 
군집 간 정보 손실을 최소화하기 위해 군집화 진행 

 

4. 비계층적 군집분석 

1) 특징

- n개의 개체를 g개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화한 군집을 형성 

- 자료 양에 제약이 없기에, 데이터 양이 많은 경우 주로 비계층적 분석법을 사용

 

2) K-평균 군집 분석 (K-means clustering) 

- 한 번 군집이 형성되더라도, 다른 군집으로 이동 가능하다

- 거리 계산을 통한 군집화로 연속형 변수에 활용 가능

- 초기 중심값은 임의 선택이 가능하며, 가급적 멀리 떨어져 있는 게 좋음 

장점 단점
- 분석 방법 적용이 용이
- 계층적 군집분석 대비 많은 양의 데이터 다룰 수 있음
- 사전정보 없어도 의미있는 자료구조 찾을 수 있음
- 다양한 형태의 데이터에 적용 가능
- 군집의 수, 가중치와 거리 정의가 어려움
- 사전에 주어진 목적이 없기에 결과 해석 어려움
- 잡음이나 이상값의 영향 많이 받음
- 초기 군집수 결정에 어려움이 있음 (*해결 위해 밑의 방식) 

 

* 초기 군집수 결정! 즉, 최적의 K를 찾기 위해서 활용하는 방법 (링크)
① elbow 방법: 
- [군집간분석/ 전체분산] 비율을 보고 k를 결정
- 그래프 상 팔꿈치 모양으로 꺾이는 지점의 k를 최적 군집 개수로 선택하는 방법 

② 실루엣 계수: 
- 객체와 그 객체가 속한 군집의 데이터들과의 비유사성(dissimilarity)를 계산하는 방법 

 

5. 혼합분포 군집

1) 개념

- 데이터가 k개의 모수적 모형(정규분포 혹은 다변량 분포를 가정)의 가중합으로 표현되는 모집단 모형으로 부터 나왔다는 가정하에서, 모수와 함께 가중치를 자료로부터 추정하는 방법

- k개의 각 모형은 군집을 의미하여, 각 데이터는 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집의 분포가 이뤄짐

- 모수와 가중치의 추정에는 EM 알고리즘을 사용

2) EM알고리즘 진행 과정

- 각 자료에 대해 Z의 조건부분포(어느 집단에 속하는가)로부터, 조건부 기댓값 구할 수 있음

- E단계: 잠재변수 Z의 기대치 계산

- M단계: 잠재변수 Z의 기대치를 이용하여 파라미터 추정

 

 

6. SOM (Self Organizing Map) : 자기조직화지도 알고리즘

1) 특징

- 비지도 신경망으로, 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬 

- 실제 공간의 입력변수가 가까이 있으면 지도상에서도 가까이 위치 

- 지도 형태로 형상화하기에 시각적으로 이해가 쉽고 패턴 발견, 이미지 분석 등에 뛰어남

- 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운 지 계산하여, 연결 강도를 반복적으로 재조정해 학습

- 입력 층의 표본 벡터에 가장 가까운 프로토타입 벡터를 선택해 BMU(Best Matching Unit)라고 칭함

2) SOM vs. 신경망모형

SOM 신경망
하나의 전방 패스를 사용
비지도학습법
속도가 매우 빠르고, 실시간 학습 처리가 가능 
역전파 알고리즘 사용
지도학습법