본문 바로가기

머신러닝55

타이타닉 생존자 예측_생존율 관련 요소 이번 시간에는 타이타닉 탑승자의 데이터를 기반으로, 생존율에 큰 영향을 미치는 요소와 만약 디카프리오가 실제 타이타닉에 탑승했다면 살아남았을까?에 대해서 머신러닝을 통해 알아보겠습니다. 당시 타이타닉은 국제선으로 영국에서 미국 뉴욕으로 가던 배였습니다. 국제선이다보니 승객의 정보가 자세히 남아있어 이 데이터로 EDA와 머신러닝을 할 수 있다는 장점이 있습니다. 타이타닉 데이터는 제로베이스 데이터취업스쿨 민형기 강사의 Github에서 가져올 수 있습니다. Github 주소는 강사님 블로그인 pinkwink 블로그에서 확인할 수 있습니다. 먼저, Github 주소로 데이터를 불러올 겁니다. 1. 데이터 불러오고 확인하기 import pandas as pd titanic_url = 'https://raw.gi.. 2024. 2. 23.
Decision Tree를 사용한 Iris 분류_데이터 나누기 이전 게시글에서 알려드린 대로, 우리는 train 데이터와 test 데이터를 나누어야 합니다. 데이터를 나누는 방법을 사용하기 위해 처음부터 데이터를 불러오겠습니다. 1. 데이터 불러오기 from sklearn.datasets import load_iris import pandas as pd iris = load_iris() iris 2. 데이터 나누기 데이터를 잘 나눠주는 아이가 scikit learn에서 제공됩니다. sklearn의 model_selection 모듈에 train_test_split() 함수입니다. from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(f.. 2024. 2. 23.
Decision Tree를 사용한 Iris 분류_과적합 과적합에 대해 알기 전에 거슬러 올라가서 머신러닝에 대해 다시 알아보겠습니다. 1. 머신 러닝 (Machine learning) 머신러닝, 지도학습이라고 하고 학습 대상이 되는 데이터에 정답(label)을 붙여 학습시키고, 모델을 얻어서 완전히 새로운 데이터에 모델을 사용해서 답을 얻고자 하는 것을 나타냅니다. 머신러닝의 일반적인 절차는 다음과 같습니다. 윗 줄은 학습, 아랫 줄은 추론이라고 부릅니다. 2. Tree model visualization 머신 러닝을 통해 얻은 Tree가 어떻게 생겼는지 한번 봐야겠죠? scikit learn의 tree 모듈의 plot_tree()라는 함수를 사용할겁니다. from sklearn.tree import plot_tree plt.figure(figsize=(12.. 2024. 2. 22.
Entropy와 Gini 계수 1. Entropy 확률적으로 희소성이 있을 때 해당 정보의 가치가 커진다고 봅니다. 어떤 속성을 선택하므로 인해서 데이터가 더 잘 구분되는 것을 정보 이득이라고 합니다. 엔트로피 : 무질서도(disorder), 불확실성(uncertainty)를 나타내므로 정보의 무질서도로도 표현할 수 있습니다. 정보가 획일적이라면 질서가 잘 갖춰져 있고 그럴 때 엔트로피가 낮다라고 표현합니다. 무질서할수록 엔트로피가 높다고 얘기할 수 있습니다. 어떤 확률분포로 일어나는 사건은 아래 수식을 따릅니다 p는 해당 데이터가 해당 클래스에 속할 확률이며, 이 값이 커질수록 확률분포의 불확실성이 커지며 결과에 대한 예측이 어려워집니다. 파이썬을 통해 한번 그려보겠습니다. import numpy as np p = np.arange.. 2024. 2. 21.
728x90