본문 바로가기

머신러닝/PCA(Principal Component Analysis)7

PCA - wine 데이터 이번에는 wine 데이터로 살펴보겠습니다. 지난시간에 썼던 iris 데이터는 feature가 4개밖에 없었지만 wine 데이터는 feature가 꽤 많았던걸로 기억합니다. wine_url = 'http://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/wine.csv'wine = pd.read_csv(wine_url, sep=',', index_col=0)wine.head() wine_X = wine.drop(['color'], axis=1)wine_y = wine['color']X와 y로 나누구요, 이번에도 scalilng 시켜보겠습니다. wine_ss = ss.fit_transform(wine_X)이렇게 얻은 scaling 된 X데이터를.. 2024. 6. 1.
PCA - iris 데이터 PCA가 무엇인지 알았으니, 이번에는 iris 데이터를 가지고 실습해보도록 하겠습니다. iris 데이터를 전처리할 pandas와 sklearn에서 iris 데이터를 가져오겠습니다.import pandas as pdfrom sklearn.datasets import load_iris iris = load_iris()iris_pd = pd.DataFrame(iris.data, columns=iris.feature_names)iris_pd['species'] = iris.targetiris_pd.head() 데이터를 다시 기억해서 알아보기위해 seaborn으로 확인해보겠습니다. import seaborn as snssns.pairplot(iris_pd, hue='species', height=3, .. 2024. 6. 1.
PCA란? Principal Component Analysis (PCA)- 데이터 집합 내에 존재하는 각 데이터의 차이를 가장 잘 나타내주는 요소를 찾아내는 방법- 통계 데이터 분석(주성분 찾기), 데이터 압축(차원 감소), 노이즈 제거 등 다양한 분야에서 사용 - 주 성분 분석의 약자로 차원축소(dimensionality reduction)와 변수추출(feature extraction) 기법으로 널리 쓰임- PCA는 데이터의 분산(variance)을 최대한 보존하면서 서로 직교하는 새 기저(축)을 찾아, 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법- 변수추출(feature extraction)은 기존 변수를 조합해 새로운 변수를 만드는 기법으로 변수선택(feature selection.. 2024. 5. 31.
728x90