목록2025/01/28 (2)
우당탕탕 개발일지
💡 서론앙상블 학습은 정형 데이터를 다루는 데 가장 뛰어난 성과를 내는 알고리즘이다.지금까지 K-최근접 이웃 회귀, 선형 회귀, 다항 회귀, 다중 회귀, 릿지/라쏘 회귀, 로지스틱 회귀, 결정 트리 등 다양한 모델 구조를 봤는데, 앙상블 모델이 주로 성능이 가장 좋다.앙상블 모델은 트리 모델을 이리저리 조합해서 만드는 모델이다. 대표적인 앙상블 모델로는1. 랜덤 포레스트(Random Forest)2. 엑스트라 트리(Extra Tree)3. 그레이디언트 부스팅(Gradient Boosting)4. 히스토그램 기반 그레이디언트 부스팅(Histogram-based Gradient Boosting)등이 있다. 이 외에도 그레이디언트 부스팅을 구현한 XGBoost, LightGBM 등의 라이브러리가 있다.이것을..
💡 서론교차 검증(Cross Validation)과 그리드 서치(Grid Search) 모두 결론적으로 예측 모델의 성능을 향상시키기 위함이다.5-2장에서는 검증 세트, 교차 검증, 그리드 서치, 랜덤 서치 등 다양한 개념이 나오는데결론적으로 보면 다 좋은 모델을 만들기 위함이다. 💡 목차1. 검증 세트2. 교차 검증(Cross Validation)3. 하이퍼파라미터 튜닝(Hyperparameter Tuning) 💡 검증 세트검증 세트 이전에는 전체 데이터를 단순히 training set과 test set으로 나누었다. 이렇게 테스트 세트를 사용해 자꾸 성능을 확인하다 보면 점점 테스트 세트에 맞추게 된다. 즉, 일반화가 되지 않고 테스트 세트에만 잘 맞는 모델을 개발하게 되는 문제점이 발생한다.이..