본문 바로가기

머신러닝/Linear Regression6

Cost function - Boston 집값 예측 Iris와 마찬가지로 sklearn의 datasets에는 Boston 집값예측 데이터가 들어있습니다. 이 데이터 세트는 Barnegie Mellon University에서 유지관리 중이며 1978년에 만들어졌습니다. 보스턴 주택 가격 데이터는 회귀문제를 다루는 많은 머신러닝 논문에서 사용하고 있습니다.from sklearn.datasets import load_bostonboston = load_boston()print(boston.DESCR)DESCR를 살펴보면 다음과 같이 컬럼이 나옵니다.대체 boston이 어떻게 생긴걸까요?  아 dict형태로 data에 데이터가 들어있고 target에 label데이터인 price가 들어있고, feature_names에 data의 컬럼이 들어있네요. dict 형태므.. 2024. 5. 5.
Cost function과 gradient descent_2 cost function은 error를 표현하는 도구라고 합니다. 그 중에서도 지난시간에 우리는 MSE(mean square error)를 확인해봤습니다.theta가 1, 즉 예측 모델이 모조리 일치했다면 cost func은 0이 될것입니다.만약 cost func가 조금 빗나갔다면 theta가 0.5로 두어서 에러가 증가한다면?에러값이 더 커진다면?결과적으로 cost function은 theta에 따라 2차함수를 띄게 됩니다. 그런데 실제 데이터는 너무 복잡해서 손으로 풀기 어렵습니다. OLS도 풀리지 않는 경우도 많습니다. OLS는 모든 데이터를 가지고 엄청 큰 행렬을 만드는 겁니다. 그리고 그 큰 행렬을 한 방에 역행렬을 구하고 transpose를 취합니다. 미분하는 것도 복잡하죠. cost func.. 2024. 5. 4.
회귀를 통해 이해하는 Cost function_1 Cost Function이란 데이터 셋과 어떤 가설 함수와의 오차를 계산하는 함수이다. Cost Function의 결과가 작을수록 데이터셋에 더 적합한 Hypothesis(가설 함수)라는 의미다. Cost Function의 궁극적인 목표는 Global Minimum을 찾는 것이다. 주택의 규모에 따른 가격이 위와 같다고 하면, 우리가 데이터를 하나 주고 가격을 가격을 알려줍니다. 정답을 알려주기 때문에 지도학습(supervised learning)이네요. 그 출력 결과인 가격은 연속적인(continuous) 값이므로 회귀(regression) 문제입니다. 어쨌든 머신러닝 모델은 학습데이터를 주고 알고리즘을 만듭니다. 그 후 hypothesis라는 가설(=모델)이 나옵니다.hypothesis는 1차식이라고.. 2024. 5. 3.
[통계] 회귀 머신러닝에서 여기는 회귀가 아닌, 통계적인 기초를 바탕으로 하는 회귀에 대해서 공부해보겠습니다.우선 회귀모델이 잘 만들어졌는지 그래프로 확인할때 필요한 모듈을 불러옵니다.import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns 데이터를 로드하겠습니다.data_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/ecommerce.csv'data = pd.read_csv(data_url)data 위 데이터의 구조에 대해 알아보자면, E커머스 회사의 고객정보입니다. - Avg. Session length : 한 번 접속했을.. 2024. 5. 3.
728x90