Decision Tree를 이용한 Wine 데이터 분석_데이터 확인
분류 문제에서 많이 사용하는 iris 꽃 데이터만큼 알려지진 않았지만, 와인 데이터도 많이 사용됩니다. 와인은 인류 역사의 최초의 술로 알려져있는, 기원전 7000년 무렵에 조지아-아르메이나-터키 동북부 (코카서스)에서 흔적이 발견되었다고 합니다. 지금 테러로 유명한 지역인데 말이죠...ㅎㅎ 와인의 맛은 분류되는 부분이 많습니다. 당도, 탄닌, 산도, 알콜, 향기, 풍미, 바디감, 맛에 따라 다양한 분류로 나뉩니다. 와인 데이터는 UCI에서 받을 수 있지만, 강사님 블로그에서도 쉽게 받을 수 있습니다. 저는 레드와인과 화이트와인으로밖에 분류를 못하는데 말이죠... 뭐, 이렇게 다양한 분류를 가지고 레드 와인과 화이트 와인으로 분류하는 것이 이번 공부의 목적입니다. 1. 데이터 불러오기 먼저 wine 데이..
2024. 2. 29.
Label encoder
머신러닝의 대표적인 도구 scikit learn을 사용 할 때, 많이 하는 절차 중에 대표적인 두가지(label encoder와 scaler) 거기서 scaler에서 가지를 쳐서 총 4가지에 대한 공부를 하겠습니다. scaler에는 min_max scaler, standard scaler, robust scaler가 있습니다. 오늘은 먼저 Label encoder에 대해 공부해보겠습니다. 학습용 데이터를 만들어보겠습니다. import pandas as pd df = pd.DataFrame( {'A' : ['a', 'b', 'c', 'a', 'b'], 'B' : [1, 2, 3, 1, 0]}) df 머신 러닝을 할 때는 숫자로 되어있어야 처리하기 쉽습니다. 이렇게 문자로 된 데이터를 숫자로 자동으로 바꿔주..
2024. 2. 27.