본문 바로가기

머신러닝/PCA(Principal Component Analysis)7

비지도학습 (Clustering) 군집 (Clustering) : 비슷한 샘플을 모음이상치 탐지 (Outlier detection) : 정상 데이터가 어떻게 보이는지 학습, 비정상 샘플을 감지밀도 추정 : 데이터셋의 확률밀도 함수 Probability Density Function PDF를 추정. 이상치 탐지 등에 사용 K-Means - 군집화에서 가장 일반적인 알고리즘- 군집 중심(centroid)이라는 임의의 지점을 선택해서 해당 중심에 가장 가까운 포인트들을 선택하는 군집화- 일반적인 군집화에서 가장 많이 사용되는 기법- 거리 기반 알고리즘으로 속성의 개수가 매우 많을 경우 군집화의 정확도가 떨어짐  어떤 데이터가 있고, 임의의 두 점을 잡습니다. 임의의 두 점을 양분하는 수직한 선을 긋습니다. 그리고 파란점에 가까운 애들을 파란색.. 2024. 6. 5.
MNIST using PCA and kNN MNIST 데이터셋이 있습니다. NIST(National Institute of Standards and Technology)는 필기체 인식을 위해 데이터를 수집한 것입니다. 1980년대 말에 cnn이라는 논문으로 발표를 합니다. 매우 성능이 좋은데, 딥러닝은 cnn 전후로 나눈다고 말해도 무방합니다. 미국 우체국은 손글씨를 기계를 이용해서 빠르게 분류하고 싶었다고 합니다. 이 NIST 데이터셋에서 숫자들만 모아놓은 것이 MNIST 데이터셋입니다. MNIST 데이터셋은 숫자들이 그림으로 이루어져있고 28 by 28의 픽셀로 이루어져있습니다. 6만개의 훈련용 데이터셋과 만개의 실험용 데이터셋으로 이루어져있습니다. kaggle에서 받을 수도 있고, keras에서 받을 수도 있습니다.  kaggle 주소는 다.. 2024. 6. 4.
HAR using PCA 예전에 다뤘던 HAR 데이터로 PCA를 돌려보겠습니다.이번에 다루는 HAR 데이터는 feature가 561개가 되었는데요,이렇게 많은 feature를 줄이는 일이다보니 pca가 유용하게 쓰일 것 같습니다. 우선 데이터를 들고오겠습니다. train 데이터와 test 데이터가 나뉘어져있어서 각각 가져와야하고, column name도 features에서 따로 들고와야합니다.import pandas as pdurl = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/HAR_dataset/features.txt'feature_name_df = pd.read_csv(url, sep='\s+', header=None, names=['col.. 2024. 6. 4.
PCA - eigenface AT&T와 캠브리지 대학의 공동 연구 데이터입니다.이 중에서 한 사람의 얼굴로 분석을 해보려고 합니다.우선은 sklearn의 datasets에 있구요. 이 이름은 fetch_olivetti_faces입니다. 얼굴 인식용으로 사용하긴 하지만 pca를 갓 공부할때도 자주 공부데이터로 쓰인다고 합니다. 한 사람당 10장의 데이터가 있고, 우리는 20번 분의 10장 데이터를 가져오겠습니다. 우리가 가져오는 데이터는 이미지의 pixel값입니다.  이 그림을 그릴건데, 2행 5열로 그릴겁니다. 이분이 올리베티 데이터의 20번 분이십니다.이 10장의 데이터를 PCA로 주성분을 2개로 만든거죠. 픽셀의 크기는 보존되는거고, 10장의 사진이 두개의 큰 성분으로 바꼈다고 생각하면 정확합니다. pca 후 사진이 흐릿해지긴 .. 2024. 6. 1.
728x90