본문 바로가기

머신러닝/앙상블 기법6

앙상블 기법 - Boosting algorithm - GBM, XGBoost, LGBM 우리가 원하는 결과를 얻는 과정이 길 수 있습니다. Gradient가 붙으면 보통 계산하는 과정이 깁니다. Boosting algorithm은 여러개의 약한 학습기 (week learner)를 순차적으로 학습-예측 하면서 잘못 예측한 데이터에 가중치를 부여해서 오류를 개선해나가는 방식이었습니다.* 부스팅 알고리즘은 앙상블 기법의 한 종류입니다. 앙상블 기법은 여러 개의 모델을 결합하여 더 나은 성능을 내는 방법론을 말합니다. 앙상블 기법에는 대표적으로 배깅(Bagging)과 부스팅(Boosting)이 있습니다.*부스팅 알고리즘의 대표적인 예는 다음과 같습니다:GBM (Gradient Boosting Machine): 경사 하강법을 사용하여 모델을 순차적으로 학습시키고 각 단계에서 오류를 최소화하는 방향으.. 2024. 5. 23.
앙상블 기법 - Boosting Algorithm - 앙상블은 전통적으로 Voting, Bagging, Boosting, 스태깅 등으로 나눔- 보팅과 배깅은 여러개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식- 보팅과 배깅의 차이점은 보팅은 각각 다른 분류기, 배깅은 같은 분류기를 사용- 대표적인 배깅 방식이 랜덤 포레스트 *Voting과 Bagging 의 차이즉 Voting 방법은 전체 데이터를 각각 다른 알고리즘으로 돌리는것,Baaging 방법은 하나의 알고리즘을 쓰는데 전체 데이터를 나눠서 쓴다는 것. 나누는 방법이 중복을 허락해서(bootstraping) 수집한다. * Boosting기법Boosting 방법은 여러개의 약한 분류기(성능이 떨어지고 빠른 방법)를 학습하면서, 앞에서 학습한 분류기가 예측이 틀린 데이터에 의해 다음 분류기가.. 2024. 5. 20.
앙상블 기법 - HAR 데이터 Random Forest 이번에는 random forest 모델을 통해 머신러닝을 시켜보겠습니다. random forest는 sklearn의 ensenble(앙상블)에서 가져올 수 있습니다. 이 random forest에도 여러 옵션이 있는데 바로 GridSearchCV로 나누어보겠습니다. random forest는 decision tree가 많이 결합된 것이기 때문에 max_depth가 필요합니다. n_estimators는 decision tree를 몇그루 쓸 것인가에 해당합니다. min sample leaf는 tree의 맨 끝에 들어오는걸 leaf라고 하는데 이 leaf에 데이터가 몇개 모이게 할 것인가입니다. decision tree의 맨 하단을 leaf라고합니다. min sample split은 leaf 바로 윗단에서 분.. 2024. 5. 18.
앙상블 기법 - HAR 데이터 Decision Tree 적용 이제 HAR 데이터를 결정나무 모델을 통해 머신러닝 시켜보겠습니다.1. 데이터 가져오기import pandas as pdimport matplotlib.pyplot as plturl = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/HAR_dataset/features.txt'feature_name_df = pd.read_csv(url, sep='\s+', header=None, names=['column_index', 'column_name'])#txt도 read_csv로 읽을 수 있습니다.#\s는 공백 한칸, \s+는 공백 여러칸입니다.feature_name_dft로 시작하는 데이터는 시간 영역의 데이터라는 뜻이고, f로.. 2024. 5. 10.
728x90