본문 바로가기

전체 글107

PCA - eigenface AT&T와 캠브리지 대학의 공동 연구 데이터입니다.이 중에서 한 사람의 얼굴로 분석을 해보려고 합니다.우선은 sklearn의 datasets에 있구요. 이 이름은 fetch_olivetti_faces입니다. 얼굴 인식용으로 사용하긴 하지만 pca를 갓 공부할때도 자주 공부데이터로 쓰인다고 합니다. 한 사람당 10장의 데이터가 있고, 우리는 20번 분의 10장 데이터를 가져오겠습니다. 우리가 가져오는 데이터는 이미지의 pixel값입니다.  이 그림을 그릴건데, 2행 5열로 그릴겁니다. 이분이 올리베티 데이터의 20번 분이십니다.이 10장의 데이터를 PCA로 주성분을 2개로 만든거죠. 픽셀의 크기는 보존되는거고, 10장의 사진이 두개의 큰 성분으로 바꼈다고 생각하면 정확합니다. pca 후 사진이 흐릿해지긴 .. 2024. 6. 1.
PCA - wine 데이터 이번에는 wine 데이터로 살펴보겠습니다. 지난시간에 썼던 iris 데이터는 feature가 4개밖에 없었지만 wine 데이터는 feature가 꽤 많았던걸로 기억합니다. wine_url = 'http://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/wine.csv'wine = pd.read_csv(wine_url, sep=',', index_col=0)wine.head() wine_X = wine.drop(['color'], axis=1)wine_y = wine['color']X와 y로 나누구요, 이번에도 scalilng 시켜보겠습니다. wine_ss = ss.fit_transform(wine_X)이렇게 얻은 scaling 된 X데이터를.. 2024. 6. 1.
PCA - iris 데이터 PCA가 무엇인지 알았으니, 이번에는 iris 데이터를 가지고 실습해보도록 하겠습니다. iris 데이터를 전처리할 pandas와 sklearn에서 iris 데이터를 가져오겠습니다.import pandas as pdfrom sklearn.datasets import load_iris iris = load_iris()iris_pd = pd.DataFrame(iris.data, columns=iris.feature_names)iris_pd['species'] = iris.targetiris_pd.head() 데이터를 다시 기억해서 알아보기위해 seaborn으로 확인해보겠습니다. import seaborn as snssns.pairplot(iris_pd, hue='species', height=3, .. 2024. 6. 1.
PCA란? Principal Component Analysis (PCA)- 데이터 집합 내에 존재하는 각 데이터의 차이를 가장 잘 나타내주는 요소를 찾아내는 방법- 통계 데이터 분석(주성분 찾기), 데이터 압축(차원 감소), 노이즈 제거 등 다양한 분야에서 사용 - 주 성분 분석의 약자로 차원축소(dimensionality reduction)와 변수추출(feature extraction) 기법으로 널리 쓰임- PCA는 데이터의 분산(variance)을 최대한 보존하면서 서로 직교하는 새 기저(축)을 찾아, 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법- 변수추출(feature extraction)은 기존 변수를 조합해 새로운 변수를 만드는 기법으로 변수선택(feature selection.. 2024. 5. 31.
728x90