본문 바로가기

머신러닝55

Decision Tree를 사용한 Iris 분류_데이터 학습 및 예측 이전 시간에는 scikit learn의 dataset 모듈에 있는 load_iris 데이터에 대해 알아보고, Decision Tree 알고리즘을 통해 분류하는 방식을 수작업으로 진행해봤습니다. 그럼 이번 시간에는 직접 scikit learn에서 Decision Tree 알고리즘을 사용해보려고 합니다. 1.구분하기 쉬운 그래프로 시각화하기 pair plot을 통해 petal length와 petal width로 구분하는 것이 3종을 구분하기 쉽다는걸 확인했으니, scatter로 그래프를 그려보겠습니다. plt.figure(figsize=(12,6)) sns.scatterplot(x='petal length (cm)', y='petal width (cm)', data=iris_pd, hue='species'.. 2024. 2. 21.
Decision Tree를 사용한 Iris 분류_데이터 관찰 1. Intro 머신러닝을 처음 공부할 때 주로 사용되는 붓꽃, Iris의 분류 데이터를 학습해보겠습니다. Iris는 세상에 여러 종이 있지만 우리가 다룰 scikit learn 모듈의 데이터셋에서는 setosa, vergicolor, virginica의 총 3종만 취급합니다. Iris의 꽃받침(sepal)의 너비와 길이, 꽃잎(petal)의 너비와 길이 총 4개의 데이터와 어떤 종인지 0, 1, 2로 나타나 있습니다. 우리는 각 꽃의 4가지 특징(feature)을 통해 어떤 종(species)인지 분류하고, 분류 알고리즘인 Decision Tree를 사용해 머신러닝을 해보겠습니다. 2. Iris 데이터 불러오기 from sklearn.datasets import load_iris iris = load_.. 2024. 2. 19.
X, y 용어 정리 및 머신러닝 지도학습 의 큰 흐름 코린이인 저는 보통 분류를 위한 머신러닝 시 코드 흐름은 정해져있기 때문에 그 흐름대로 코드를 짜게 되는데, 그러다보면 함수의 의미와 변수를 나누는 의미에 대해 쉽게 잊어버리게 되는 경향이 있습니다. 따라서 이번에 데이터사이언스 강의를 들으면서 이 변수 X, y가 어떤 의미인지, 왜 나누는지에 대해 제대로 다뤄보겠습니다. 1. 머신러닝 용어정리 분류를 위한 머신러닝 코드에서는 대체로 갖고있는 데이터에서 train_test_split 함수를 사용해 X_train, y_train, X_test, y_test으로 나누어 학습 데이터와 테스트 데이터로 나눕니다. 왜 이렇게 X, y로 나누고 train과 test로 나누는 걸까요? 머신러닝을 하다보면 target(label, class 라고도 합니다.)과 feat.. 2023. 1. 12.
728x90