본문 바로가기
머신러닝/PCA(Principal Component Analysis)

비지도학습 (Clustering)

by 미생22 2024. 6. 5.
728x90

군집 (Clustering) : 비슷한 샘플을 모음

이상치 탐지 (Outlier detection) : 정상 데이터가 어떻게 보이는지 학습, 비정상 샘플을 감지

밀도 추정 : 데이터셋의 확률밀도 함수 Probability Density Function PDF를 추정. 이상치 탐지 등에 사용

 

K-Means

 

- 군집화에서 가장 일반적인 알고리즘

- 군집 중심(centroid)이라는 임의의 지점을 선택해서 해당 중심에 가장 가까운 포인트들을 선택하는 군집화

- 일반적인 군집화에서 가장 많이 사용되는 기법

- 거리 기반 알고리즘으로 속성의 개수가 매우 많을 경우 군집화의 정확도가 떨어짐

 

 

어떤 데이터가 있고, 임의의 두 점을 잡습니다. 임의의 두 점을 양분하는 수직한 선을 긋습니다. 그리고 파란점에 가까운 애들을 파란색, 빨간점에 가까운 애들을 빨간색이라고 합니다. 그리고 파란색과 빨간색 사이의 중심값들을 잡습니다. 그리고 그 중심값들을 두 점으로 잡습니다. 또 긋고 또 중심찾고 또 긋고 또 중심찾고를 반복하다가 중심이 변하지 않는다면 혹은 일정 범위 안에서 진동하고 있다면 끝입니다.

 

 

군집을 평가하는 방법도 있습니다.

분류기는 평가 기준(정답)을 가지고 있지만, 군집은 그렇지 않습니다. 군집 결과를 평가하기 위해 실루엣 분석을 많이 사용합니다.

 

실루엣 분석은 군집간의 거리가 얼마나 효율적으로 분리되어 있는지 확인하는 용도로 사용됩니다. 다른 군집과는 거리가 떨어져있고, 동일 군집간의 데이터는 서로 가깝게 잘 뭉쳐있는지 확인할 수 있습니다.

군집화가 잘 되어 있을수록 개별 군집은 비슷한 정도의 여유 공간을 가지고 있고, 실루엣 계수가 개별 데이터가 가지는 군집화의 지표입니다.

 

 

이게 실루엣 그래프입니다. 한 군집에서 서로 많이 모여있을수록 그 폭이 줄어듭니다. 데이터가 퍼져있을 수록 실루엣 폭이 늘어납니다. 1번 군집과 0번군집사이에 칼날이 제대로 있네요.

n=3일때는 어떨까요?

 

 

가끔 0번인데 2번군집에 더 가깝다고 볼수도 있는 것들에 대해서는 그래프와 같이 음수값을 갖기도 합니다.

 n=4인 경우입니다.

이렇게 칼날모양으로 폭이 일정하게 나와있는 경우가 군집화가 잘된 경우입니다.

즉 이 군집은 4개의 군집으로 나누어야 하는구나를 알 수 있습니다.

 

 

728x90

'머신러닝 > PCA(Principal Component Analysis)' 카테고리의 다른 글

MNIST using PCA and kNN  (1) 2024.06.04
HAR using PCA  (0) 2024.06.04
PCA - eigenface  (0) 2024.06.01
PCA - wine 데이터  (0) 2024.06.01
PCA - iris 데이터  (0) 2024.06.01