본문 바로가기

머신러닝55

Logistic Regression - PIMA 인디언 당뇨병 예측 Logistic Regression은 분류를 위한 것으로 PIMA 인디언의 당뇨병을 예측하기 좋습니다.PIMA 인디언은 1950년대까지 당뇨가 없었습니다. 그런데 20세기 말, 50%가 당뇨에 갑자기 걸렸고 50년만에 50%의 인구가 당뇨에 걸렸다고 합니다. 원래 데이터는 kaggle에 있는데 저희는 pinkwink에서 가져오겠습니다.각 컬럼에 대한 정보는 다음과 같습니다. import pandas as pdPIMA_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/diabetes.csv'pima = pd.read_csv(PIMA_url)pima.head()pima.info() 총 768개의 데이터가 있고 전부 수치형.. 2024. 5. 7.
Logistic Regression - 실습 지난번에 했던 wine 데이터를 가지고 한번 logistic regression을 실습해보겠습니다.import pandas as pdwine_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/wine.csv'wine = pd.read_csv(wine_url, index_col=0)wine.head()wine['taste'] = [1 if grade>5 else 0 for grade in wine['quality']]X = wine.drop(['taste', 'quality'], axis=1)y = wine['taste']from sklearn.model_selection import train_test_splitX_t.. 2024. 5. 6.
Logistic Regression - 이론 Logistic Regression은 Linear Regression과 다르게 분류기에 사용됩니다.악성 종양을 찾는 문제는 분류일까요 회귀일까요?종양의 크기를 가지고 양성과 악성으로 나눈다고 한다면, linear regression이 될 것입니다.우리가 가져가고 싶은 label은 0,1밖에 없기 때문에 직선을 그어야합니다.0.5지점인 threshold를 두고 나누면 될 것 같습니다. 그런데 저 멀리에 데이터가 있다면 linear regression으로는 분류하기 어려울 수 있습니다.이럴 때 직선모델을 쓰는게 아니라 좀 특이한 모델을 가져옵니다.다시 말해서, 분류 문제는 0 또는 1로 예측해야 하나 linear regression을 그대로 적용하면 예측값(h(x))는 0보다 작거나 1보다 큰 값을 가질 수.. 2024. 5. 6.
Cost function - Boston 집값 예측 Iris와 마찬가지로 sklearn의 datasets에는 Boston 집값예측 데이터가 들어있습니다. 이 데이터 세트는 Barnegie Mellon University에서 유지관리 중이며 1978년에 만들어졌습니다. 보스턴 주택 가격 데이터는 회귀문제를 다루는 많은 머신러닝 논문에서 사용하고 있습니다.from sklearn.datasets import load_bostonboston = load_boston()print(boston.DESCR)DESCR를 살펴보면 다음과 같이 컬럼이 나옵니다.대체 boston이 어떻게 생긴걸까요?  아 dict형태로 data에 데이터가 들어있고 target에 label데이터인 price가 들어있고, feature_names에 data의 컬럼이 들어있네요. dict 형태므.. 2024. 5. 5.
728x90