본문 바로가기

분류 전체보기107

grid search cv에서 n_estimators Grid Search CV에서 n_estimators는 주로 앙상블 학습 알고리즘에서 사용되는 파라미터로, 특히 부스팅(Boosting)과 배깅(Bagging) 기법에서 많이 사용됩니다. 이 파라미터는 앙상블을 구성하는 개별 모델(예: 결정 트리)의 개수를 의미합니다.부스팅(Boosting) 알고리즘에서는, 예를 들어 Gradient Boosting Machine (GBM), XGBoost, LightGBM 등에서 n_estimators는 순차적으로 학습되는 트리(또는 다른 기본 모델)의 수를 의미합니다. 각 트리는 이전 트리의 오류를 보완하는 방식으로 학습됩니다.배깅(Bagging) 알고리즘에서는, 예를 들어 **랜덤 포레스트(Random Forest)**에서 n_estimators는 독립적으로 학습되.. 2024. 5. 23.
grid search cv의 cv값이랑 kfold의 n값은 같은 걸까? Grid Search CV의 cv 값과 K-Fold 교차 검증의 n_splits 값은 동일한 개념을 나타냅니다. 두 값 모두 데이터셋을 몇 개의 폴드(fold)로 나눌지를 지정합니다.자세히 설명하자면:K-Fold 교차 검증 (K-Fold Cross-Validation):이 방법은 데이터를 K개의 폴드로 나누고, K번의 반복을 통해 각 폴드가 한 번씩 검증 세트로 사용되며 나머지 K-1개 폴드는 학습 세트로 사용됩니다.n_splits 값은 데이터셋을 몇 개의 폴드로 나눌지를 지정하며, 일반적으로 n으로 표현됩니다. 예를 들어, n_splits=5라면 5-Fold 교차 검증을 의미합니다.Grid Search CV (Grid Search Cross-Validation):이 방법은 하이퍼파라미터의 최적 조합을 .. 2024. 5. 22.
kNN K-최근접 이웃 알고리즘(K-Nearest Neighbors, KNN)은 앙상블 기법이 아닙니다. KNN은 단일 모델 기반의 지도 학습 알고리즘으로, 분류와 회귀 모두에 사용할 수 있습니다. knn의 작동원리는 매우 직관적입니다. 새로운 데이터 포인트의 클래스를 예측할 때, knn은 이미 레이블이 지정된 데이터 포인트 중에서 가장 가까운 k개의 이웃을 찾아 그들의 레이블을 기반으로 예측을 수행합니다.거리 측정: 새로운 데이터 포인트와 훈련 데이터 세트의 모든 데이터 포인트 간의 거리를 계산합니다. 주로 유클리드 거리가 사용됩니다.이웃 선택: 가장 가까운 K개의 데이터 포인트(이웃)를 선택합니다.다수결 투표 (분류): 이웃의 레이블을 기반으로 다수결 투표를 통해 새로운 데이터 포인트의 클래스를 예측합니다... 2024. 5. 22.
앙상블 기법 - Boosting Algorithm - 앙상블은 전통적으로 Voting, Bagging, Boosting, 스태깅 등으로 나눔- 보팅과 배깅은 여러개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식- 보팅과 배깅의 차이점은 보팅은 각각 다른 분류기, 배깅은 같은 분류기를 사용- 대표적인 배깅 방식이 랜덤 포레스트 *Voting과 Bagging 의 차이즉 Voting 방법은 전체 데이터를 각각 다른 알고리즘으로 돌리는것,Baaging 방법은 하나의 알고리즘을 쓰는데 전체 데이터를 나눠서 쓴다는 것. 나누는 방법이 중복을 허락해서(bootstraping) 수집한다. * Boosting기법Boosting 방법은 여러개의 약한 분류기(성능이 떨어지고 빠른 방법)를 학습하면서, 앞에서 학습한 분류기가 예측이 틀린 데이터에 의해 다음 분류기가.. 2024. 5. 20.
728x90