본문 바로가기

전체 글107

Scaling 이번 시간에는 머신러닝에서 자주 사용하는 Scaler, Scalilng이라고도 부르는 모듈에 대해 공부해보겠습니다. 우선 강의에 나오지는 않지만 이 scaling을 왜 쓰는지, 어디에 쓰는지를 알아보고 싶어 직접 찾아보았습니다. 머신러닝, 회귀 등 모델링을 수행할 때 스케일링(scaling)은 중요한 과정 입니다. 스케일링은 범위를 재정의하는 것을 의미합니다. 여기서, 표준화(standardization)는 스케일링 방법 중 하나이며 우리는 이것이 언제 필요한지는 모른채 무작정 표준화를 수행하는 것이 대부분이라고 합니다. 강의를 통해 공부하기에 앞서, 다른집 블로그를 통해 어떻게, 왜, 언제 스케일링를 수행하는지 알아보겠습니다. 1. 왜 스케일링을 수행하는가 데이터를 보면 모든 열들 즉, 변수들은 각자 .. 2024. 2. 28.
Label encoder 머신러닝의 대표적인 도구 scikit learn을 사용 할 때, 많이 하는 절차 중에 대표적인 두가지(label encoder와 scaler) 거기서 scaler에서 가지를 쳐서 총 4가지에 대한 공부를 하겠습니다. scaler에는 min_max scaler, standard scaler, robust scaler가 있습니다. 오늘은 먼저 Label encoder에 대해 공부해보겠습니다. 학습용 데이터를 만들어보겠습니다. import pandas as pd df = pd.DataFrame( {'A' : ['a', 'b', 'c', 'a', 'b'], 'B' : [1, 2, 3, 1, 0]}) df 머신 러닝을 할 때는 숫자로 되어있어야 처리하기 쉽습니다. 이렇게 문자로 된 데이터를 숫자로 자동으로 바꿔주.. 2024. 2. 27.
타이타닉 생존자 예측_머신러닝 2. 머신러닝 2-1. 머신러닝을 위한 구조 짜기 이제 진짜 머신러닝을 할 차례입니다. 생존자 예측을 위해 간단히 구조를 확인해보겠습니다. titanic.info() pclass, sex, age, fare, sibsp(부모형제), parch(자녀) 이런걸 볼 예정입니다 우선 머신러닝을 하기 위해서는 column들이 숫자여야 하는데 보면, sex가 object로 되어있는 걸 확인할 수 있습니다. 머신러닝을 쓰기 위해서 성별을 숫자로 바꾸는 작업이 필요합니다. 이럴 때 Label Encode를 사용하면 편리합니다. from sklearn.preprocessing import LabelEncoder le = LabelEncoder() #Label encoder를 instanciation 시키고, le.fit.. 2024. 2. 26.
타이타닉 생존자 예측_생존율 관련 요소 이번 시간에는 타이타닉 탑승자의 데이터를 기반으로, 생존율에 큰 영향을 미치는 요소와 만약 디카프리오가 실제 타이타닉에 탑승했다면 살아남았을까?에 대해서 머신러닝을 통해 알아보겠습니다. 당시 타이타닉은 국제선으로 영국에서 미국 뉴욕으로 가던 배였습니다. 국제선이다보니 승객의 정보가 자세히 남아있어 이 데이터로 EDA와 머신러닝을 할 수 있다는 장점이 있습니다. 타이타닉 데이터는 제로베이스 데이터취업스쿨 민형기 강사의 Github에서 가져올 수 있습니다. Github 주소는 강사님 블로그인 pinkwink 블로그에서 확인할 수 있습니다. 먼저, Github 주소로 데이터를 불러올 겁니다. 1. 데이터 불러오고 확인하기 import pandas as pd titanic_url = 'https://raw.gi.. 2024. 2. 23.
728x90