본문 바로가기

머신러닝/Logistic Regression5

Precision(정밀도)과 Recall(재현율)의 Trade off precision과 recall을 강제로 조정하는것은 강제로 threshold를 조정하는 것인데, 이것이 모델 성능의 향상을 말하지 않는다는 의견이 많습니다. 어차피 내가 얻은 데이터에서 작은 threshold의 움직임은 변화가 거의없고 또 threshold를 극단적으로 바꾸면 이게 의미가 없거든요. 그래도 방법은 소개해야할 것 같아서 강의에서 말하고 있습니다. wine 데이터를 다시 불러옵니다.import pandas as pdred_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/winequality-red.csv'white_url = 'https://raw.githubusercontent.com/PinkWink.. 2024. 5. 7.
Logistic Regression - PIMA 인디언 당뇨병 예측 Logistic Regression은 분류를 위한 것으로 PIMA 인디언의 당뇨병을 예측하기 좋습니다.PIMA 인디언은 1950년대까지 당뇨가 없었습니다. 그런데 20세기 말, 50%가 당뇨에 갑자기 걸렸고 50년만에 50%의 인구가 당뇨에 걸렸다고 합니다. 원래 데이터는 kaggle에 있는데 저희는 pinkwink에서 가져오겠습니다.각 컬럼에 대한 정보는 다음과 같습니다. import pandas as pdPIMA_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/diabetes.csv'pima = pd.read_csv(PIMA_url)pima.head()pima.info() 총 768개의 데이터가 있고 전부 수치형.. 2024. 5. 7.
Logistic Regression - 실습 지난번에 했던 wine 데이터를 가지고 한번 logistic regression을 실습해보겠습니다.import pandas as pdwine_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/wine.csv'wine = pd.read_csv(wine_url, index_col=0)wine.head()wine['taste'] = [1 if grade>5 else 0 for grade in wine['quality']]X = wine.drop(['taste', 'quality'], axis=1)y = wine['taste']from sklearn.model_selection import train_test_splitX_t.. 2024. 5. 6.
Logistic Regression - 이론 Logistic Regression은 Linear Regression과 다르게 분류기에 사용됩니다.악성 종양을 찾는 문제는 분류일까요 회귀일까요?종양의 크기를 가지고 양성과 악성으로 나눈다고 한다면, linear regression이 될 것입니다.우리가 가져가고 싶은 label은 0,1밖에 없기 때문에 직선을 그어야합니다.0.5지점인 threshold를 두고 나누면 될 것 같습니다. 그런데 저 멀리에 데이터가 있다면 linear regression으로는 분류하기 어려울 수 있습니다.이럴 때 직선모델을 쓰는게 아니라 좀 특이한 모델을 가져옵니다.다시 말해서, 분류 문제는 0 또는 1로 예측해야 하나 linear regression을 그대로 적용하면 예측값(h(x))는 0보다 작거나 1보다 큰 값을 가질 수.. 2024. 5. 6.
728x90