본문 바로가기

전체 글107

Logistic Regression - 이론 Logistic Regression은 Linear Regression과 다르게 분류기에 사용됩니다.악성 종양을 찾는 문제는 분류일까요 회귀일까요?종양의 크기를 가지고 양성과 악성으로 나눈다고 한다면, linear regression이 될 것입니다.우리가 가져가고 싶은 label은 0,1밖에 없기 때문에 직선을 그어야합니다.0.5지점인 threshold를 두고 나누면 될 것 같습니다. 그런데 저 멀리에 데이터가 있다면 linear regression으로는 분류하기 어려울 수 있습니다.이럴 때 직선모델을 쓰는게 아니라 좀 특이한 모델을 가져옵니다.다시 말해서, 분류 문제는 0 또는 1로 예측해야 하나 linear regression을 그대로 적용하면 예측값(h(x))는 0보다 작거나 1보다 큰 값을 가질 수.. 2024. 5. 6.
Cost function - Boston 집값 예측 Iris와 마찬가지로 sklearn의 datasets에는 Boston 집값예측 데이터가 들어있습니다. 이 데이터 세트는 Barnegie Mellon University에서 유지관리 중이며 1978년에 만들어졌습니다. 보스턴 주택 가격 데이터는 회귀문제를 다루는 많은 머신러닝 논문에서 사용하고 있습니다.from sklearn.datasets import load_bostonboston = load_boston()print(boston.DESCR)DESCR를 살펴보면 다음과 같이 컬럼이 나옵니다.대체 boston이 어떻게 생긴걸까요?  아 dict형태로 data에 데이터가 들어있고 target에 label데이터인 price가 들어있고, feature_names에 data의 컬럼이 들어있네요. dict 형태므.. 2024. 5. 5.
Logistic Regression - PIMA 인디언 당뇨병 예측 PIMA 인디언은 멕시코와 미국에 걸쳐살고있던 인디언 부족이라고 합니다. 1950년대까지 PIMA 인디언은 당뇨가 없었습니다. 그런데 20세기 말, 단 50년만에 인구의 50%가 당뇨에 걸렸고 50년만에 50%의 인구가 당뇨에 걸렸습니다. 원래 데이터는 Kaggle에 있습니다. 이 데이터를 pinkwink github에서 가져오겠습니다. 각 컬럼에 대해 이야기하자면 다음과 같습니다. import pandas as pdPIMA_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/diabetes.csv'pima = pd.read_csv(PIMA_url)pima.head() pima 데이터를 좀 살펴보겠습니다.pima.inf.. 2024. 5. 4.
Cost function과 gradient descent_2 cost function은 error를 표현하는 도구라고 합니다. 그 중에서도 지난시간에 우리는 MSE(mean square error)를 확인해봤습니다.theta가 1, 즉 예측 모델이 모조리 일치했다면 cost func은 0이 될것입니다.만약 cost func가 조금 빗나갔다면 theta가 0.5로 두어서 에러가 증가한다면?에러값이 더 커진다면?결과적으로 cost function은 theta에 따라 2차함수를 띄게 됩니다. 그런데 실제 데이터는 너무 복잡해서 손으로 풀기 어렵습니다. OLS도 풀리지 않는 경우도 많습니다. OLS는 모든 데이터를 가지고 엄청 큰 행렬을 만드는 겁니다. 그리고 그 큰 행렬을 한 방에 역행렬을 구하고 transpose를 취합니다. 미분하는 것도 복잡하죠. cost func.. 2024. 5. 4.
728x90