본문 바로가기

머신러닝/Preprocessing8

Decision Tree를 이용한 Wine 데이터 분석_데이터 처리 저번 시간에 확인한 red와 white wine에 대한 데이터를 이제 처리해보겠습니다. 머신러닝을 할 때에는 feature롸 label로 데이터를 분류한 뒤 학습을 시키고 예측을 시킨뒤 정확도를 확인하고, Decision Tree인 경우 Tree가 어떻게 생겼는지 확인했었습니다. 이번 시간에는 그 작업을 진행하겠습니다. 3. 데이터 처리 3-1. 데이터 분류하기 레드인지 화이트인지 분류하는 머신러닝을 진행해보려고 합니다. 먼저 color가 적히지 않은 wine과 color가 적힌 wine 데이터를 각각 만들겠습니다. feature(문제)인 X를 만들고, label(정답)인 y를 만들겠습니다. color 컬럼만 따로 들고왔습니다. 마지막으로 데이터 확인해주겠습니다. X = wine.drop(['color'.. 2024. 3. 1.
Decision Tree를 이용한 Wine 데이터 분석_데이터 확인 분류 문제에서 많이 사용하는 iris 꽃 데이터만큼 알려지진 않았지만, 와인 데이터도 많이 사용됩니다. 와인은 인류 역사의 최초의 술로 알려져있는, 기원전 7000년 무렵에 조지아-아르메이나-터키 동북부 (코카서스)에서 흔적이 발견되었다고 합니다. 지금 테러로 유명한 지역인데 말이죠...ㅎㅎ 와인의 맛은 분류되는 부분이 많습니다. 당도, 탄닌, 산도, 알콜, 향기, 풍미, 바디감, 맛에 따라 다양한 분류로 나뉩니다. 와인 데이터는 UCI에서 받을 수 있지만, 강사님 블로그에서도 쉽게 받을 수 있습니다. 저는 레드와인과 화이트와인으로밖에 분류를 못하는데 말이죠... 뭐, 이렇게 다양한 분류를 가지고 레드 와인과 화이트 와인으로 분류하는 것이 이번 공부의 목적입니다. 1. 데이터 불러오기 먼저 wine 데이.. 2024. 2. 29.
Scaling 이번 시간에는 머신러닝에서 자주 사용하는 Scaler, Scalilng이라고도 부르는 모듈에 대해 공부해보겠습니다. 우선 강의에 나오지는 않지만 이 scaling을 왜 쓰는지, 어디에 쓰는지를 알아보고 싶어 직접 찾아보았습니다. 머신러닝, 회귀 등 모델링을 수행할 때 스케일링(scaling)은 중요한 과정 입니다. 스케일링은 범위를 재정의하는 것을 의미합니다. 여기서, 표준화(standardization)는 스케일링 방법 중 하나이며 우리는 이것이 언제 필요한지는 모른채 무작정 표준화를 수행하는 것이 대부분이라고 합니다. 강의를 통해 공부하기에 앞서, 다른집 블로그를 통해 어떻게, 왜, 언제 스케일링를 수행하는지 알아보겠습니다. 1. 왜 스케일링을 수행하는가 데이터를 보면 모든 열들 즉, 변수들은 각자 .. 2024. 2. 28.
Label encoder 머신러닝의 대표적인 도구 scikit learn을 사용 할 때, 많이 하는 절차 중에 대표적인 두가지(label encoder와 scaler) 거기서 scaler에서 가지를 쳐서 총 4가지에 대한 공부를 하겠습니다. scaler에는 min_max scaler, standard scaler, robust scaler가 있습니다. 오늘은 먼저 Label encoder에 대해 공부해보겠습니다. 학습용 데이터를 만들어보겠습니다. import pandas as pd df = pd.DataFrame( {'A' : ['a', 'b', 'c', 'a', 'b'], 'B' : [1, 2, 3, 1, 0]}) df 머신 러닝을 할 때는 숫자로 되어있어야 처리하기 쉽습니다. 이렇게 문자로 된 데이터를 숫자로 자동으로 바꿔주.. 2024. 2. 27.
728x90