본문 바로가기

제로베이스59

Cost function과 gradient descent_2 cost function은 error를 표현하는 도구라고 합니다. 그 중에서도 지난시간에 우리는 MSE(mean square error)를 확인해봤습니다.theta가 1, 즉 예측 모델이 모조리 일치했다면 cost func은 0이 될것입니다.만약 cost func가 조금 빗나갔다면 theta가 0.5로 두어서 에러가 증가한다면?에러값이 더 커진다면?결과적으로 cost function은 theta에 따라 2차함수를 띄게 됩니다. 그런데 실제 데이터는 너무 복잡해서 손으로 풀기 어렵습니다. OLS도 풀리지 않는 경우도 많습니다. OLS는 모든 데이터를 가지고 엄청 큰 행렬을 만드는 겁니다. 그리고 그 큰 행렬을 한 방에 역행렬을 구하고 transpose를 취합니다. 미분하는 것도 복잡하죠. cost func.. 2024. 5. 4.
[통계] 회귀 머신러닝에서 여기는 회귀가 아닌, 통계적인 기초를 바탕으로 하는 회귀에 대해서 공부해보겠습니다.우선 회귀모델이 잘 만들어졌는지 그래프로 확인할때 필요한 모듈을 불러옵니다.import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns 데이터를 로드하겠습니다.data_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/ecommerce.csv'data = pd.read_csv(data_url)data 위 데이터의 구조에 대해 알아보자면, E커머스 회사의 고객정보입니다. - Avg. Session length : 한 번 접속했을.. 2024. 5. 3.
Linear Regression - OLS(최소자승법) 최소자승법, OLS란 Ordinary Linear Lease Square의 약자로, 회귀로 문제를 푸는 방법을 해보겠습니다. 그 중에서 수학적으로 많이 사용하는 방법이 OLS입니다.이 방법에 대해서 알아보겠습니다. 이렇게 생긴 데이터를 하나의 직선으로 만든다고 해봅시다. 총 5개의 데이터를 직선으로 만든다면, y=ax+b 형태를 띌 것입니다. 우리는 x, y를 알고 있으므로 a, b를 찾아야합니다. 어떤 직선이 잘맞는지 모르기 때문에 각 데이터를 넣어야합니다.1=1a+b3=2a+b4=3a+b6=4a+b5=5a+b 이 문제를 벡터와 행렬로 표현한다면, 결과적으로 Y = AX라고 표현할 수 있습니다.y1 = x1*a+by2 = x2*a+b...와 같이 되므로위에서 얘기한 5가지 식과 동일하게 나타낼 수 있습.. 2024. 5. 2.
Python Box plot +모양이 평균지점이고 Box plot의 맨 위와 맨 아래가 upper fence, lower fence입니다.데이터의 절반이 들어가는 IQR(Interquartile Range)의 각각 1.5배를 벗어나는 지점에 만약 데이터가 있으면 이 데이터를 outlier라고 말합니다. samples = [1, 7, 9, 16, 36, 39, 45, 45, 46, 48, 51, 100, 101]samplestmp_y = [1]*len(samples)tmp_y 당연히 두 개의 길이는 똑같습니다.len(samples), len(tmp_y)이제 이걸 가지고 plot을 그릴겁니다. import matplotlib.pyplot as pltplt.figure(figsize=(12,4))plt.scatter(samples, tm.. 2024. 4. 27.
728x90