본문 바로가기

분류 전체보기107

앙상블 기법 지난시간 공부했던 로지스틱 회귀는 일종의 선형 분류 알고리즘으로, 주어진 입력 변수에 대해 이진 분류 문제를 해결하는 데 사용됩니다. 로지스틱 회귀는 선형 결합을 통해 로지스틱 함수를 적용하여 클래스에 속할 확률을 추정합니다. 반면, 앙상블 기법은 여러 개의 분류 또는 회귀 모델을 결합하여 더 나은 예측을 만들어내는 기법을 일컫습니다. 이러한 앙상블 기법에는 여러 가지 종류가 있습니다. 대표적으로는 랜덤 포레스트(Random Forest), 그래디언트 부스팅(Gradient Boosting), 에이다부스트(AdaBoost) 등이 있습니다. 앙상블 기법은 여러 모델을 결합하여 더 강력한 예측 모델을 형성하는 데 사용되지만, 로지스틱 회귀는 단일 모델로 이진 분류 문제를 해결하는 데 사용됩니다. 앙상블 개요.. 2024. 5. 8.
Precision(정밀도)과 Recall(재현율)의 Trade off precision과 recall을 강제로 조정하는것은 강제로 threshold를 조정하는 것인데, 이것이 모델 성능의 향상을 말하지 않는다는 의견이 많습니다. 어차피 내가 얻은 데이터에서 작은 threshold의 움직임은 변화가 거의없고 또 threshold를 극단적으로 바꾸면 이게 의미가 없거든요. 그래도 방법은 소개해야할 것 같아서 강의에서 말하고 있습니다. wine 데이터를 다시 불러옵니다.import pandas as pdred_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/winequality-red.csv'white_url = 'https://raw.githubusercontent.com/PinkWink.. 2024. 5. 7.
Logistic Regression - PIMA 인디언 당뇨병 예측 Logistic Regression은 분류를 위한 것으로 PIMA 인디언의 당뇨병을 예측하기 좋습니다.PIMA 인디언은 1950년대까지 당뇨가 없었습니다. 그런데 20세기 말, 50%가 당뇨에 갑자기 걸렸고 50년만에 50%의 인구가 당뇨에 걸렸다고 합니다. 원래 데이터는 kaggle에 있는데 저희는 pinkwink에서 가져오겠습니다.각 컬럼에 대한 정보는 다음과 같습니다. import pandas as pdPIMA_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/diabetes.csv'pima = pd.read_csv(PIMA_url)pima.head()pima.info() 총 768개의 데이터가 있고 전부 수치형.. 2024. 5. 7.
Logistic Regression - 실습 지난번에 했던 wine 데이터를 가지고 한번 logistic regression을 실습해보겠습니다.import pandas as pdwine_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/wine.csv'wine = pd.read_csv(wine_url, index_col=0)wine.head()wine['taste'] = [1 if grade>5 else 0 for grade in wine['quality']]X = wine.drop(['taste', 'quality'], axis=1)y = wine['taste']from sklearn.model_selection import train_test_splitX_t.. 2024. 5. 6.
728x90