본문 바로가기

데이터취업스쿨56

Decision Tree를 이용한 Wine 데이터 분석_데이터 확인 분류 문제에서 많이 사용하는 iris 꽃 데이터만큼 알려지진 않았지만, 와인 데이터도 많이 사용됩니다. 와인은 인류 역사의 최초의 술로 알려져있는, 기원전 7000년 무렵에 조지아-아르메이나-터키 동북부 (코카서스)에서 흔적이 발견되었다고 합니다. 지금 테러로 유명한 지역인데 말이죠...ㅎㅎ 와인의 맛은 분류되는 부분이 많습니다. 당도, 탄닌, 산도, 알콜, 향기, 풍미, 바디감, 맛에 따라 다양한 분류로 나뉩니다. 와인 데이터는 UCI에서 받을 수 있지만, 강사님 블로그에서도 쉽게 받을 수 있습니다. 저는 레드와인과 화이트와인으로밖에 분류를 못하는데 말이죠... 뭐, 이렇게 다양한 분류를 가지고 레드 와인과 화이트 와인으로 분류하는 것이 이번 공부의 목적입니다. 1. 데이터 불러오기 먼저 wine 데이.. 2024. 2. 29.
Scaling 이번 시간에는 머신러닝에서 자주 사용하는 Scaler, Scalilng이라고도 부르는 모듈에 대해 공부해보겠습니다. 우선 강의에 나오지는 않지만 이 scaling을 왜 쓰는지, 어디에 쓰는지를 알아보고 싶어 직접 찾아보았습니다. 머신러닝, 회귀 등 모델링을 수행할 때 스케일링(scaling)은 중요한 과정 입니다. 스케일링은 범위를 재정의하는 것을 의미합니다. 여기서, 표준화(standardization)는 스케일링 방법 중 하나이며 우리는 이것이 언제 필요한지는 모른채 무작정 표준화를 수행하는 것이 대부분이라고 합니다. 강의를 통해 공부하기에 앞서, 다른집 블로그를 통해 어떻게, 왜, 언제 스케일링를 수행하는지 알아보겠습니다. 1. 왜 스케일링을 수행하는가 데이터를 보면 모든 열들 즉, 변수들은 각자 .. 2024. 2. 28.
Label encoder 머신러닝의 대표적인 도구 scikit learn을 사용 할 때, 많이 하는 절차 중에 대표적인 두가지(label encoder와 scaler) 거기서 scaler에서 가지를 쳐서 총 4가지에 대한 공부를 하겠습니다. scaler에는 min_max scaler, standard scaler, robust scaler가 있습니다. 오늘은 먼저 Label encoder에 대해 공부해보겠습니다. 학습용 데이터를 만들어보겠습니다. import pandas as pd df = pd.DataFrame( {'A' : ['a', 'b', 'c', 'a', 'b'], 'B' : [1, 2, 3, 1, 0]}) df 머신 러닝을 할 때는 숫자로 되어있어야 처리하기 쉽습니다. 이렇게 문자로 된 데이터를 숫자로 자동으로 바꿔주.. 2024. 2. 27.
타이타닉 생존자 예측_머신러닝 2. 머신러닝 2-1. 머신러닝을 위한 구조 짜기 이제 진짜 머신러닝을 할 차례입니다. 생존자 예측을 위해 간단히 구조를 확인해보겠습니다. titanic.info() pclass, sex, age, fare, sibsp(부모형제), parch(자녀) 이런걸 볼 예정입니다 우선 머신러닝을 하기 위해서는 column들이 숫자여야 하는데 보면, sex가 object로 되어있는 걸 확인할 수 있습니다. 머신러닝을 쓰기 위해서 성별을 숫자로 바꾸는 작업이 필요합니다. 이럴 때 Label Encode를 사용하면 편리합니다. from sklearn.preprocessing import LabelEncoder le = LabelEncoder() #Label encoder를 instanciation 시키고, le.fit.. 2024. 2. 26.
728x90