본문 바로가기
728x90

Data/[네이버 부스트클래스 AI 엔지니어 기초 다지기]9

[2주차]11차시 Ensemble learning(앙상블 학습)여러 개의 개별 모델을 조합하여 최적의 모델로 일반화 하는 방법weak classifier들을 결합하여 strong classifier를 만드는 것오버피팅의 문제를 감소시킨다는 장점이 존재배깅(Bagging)Bootstrap aggregation의 약자로 샘플을 여러 번 뽑아 모델을 학습시킨 후 결과물을 집계하는 방식기존의 앙상블 학습과 달리 하나의 모델에 다양한 데이터를 대입훈련 세트에서 중복을 허용하여 샘플링 진행범주형 데이터는 보팅을 통해 집계하고, 연속형 데이터는 평균을 통해 집계학습 데이터가 충분하지 않더라도 충분한 효과를 낼 수 있음High variance 모델이 적합페이스팅(Pasting)배깅과 달리 훈련 세트에서 중복을 허용하지 않음보팅(Voti.. 2024. 5. 28.
[2주차]10차시 하이퍼파라미터(Hyperparameter)기계학습 모델훈련을 관리하는데 사용하는 외부 구성 변수모델을 훈련하기 전에 사용자에 의해 수동으로 설정됨최적값이나 기본값이 없음파라미터(Parameter)모델 내부에서 결정되는 변수로 데이터로부터 결정사용자에 의해 조정되지 않음모델링에 의해 자동으로 결정되는 값하이퍼 파라미터 튜닝기계학습 모델의 성능을 최적화하는 중요한 과정으로 최적의 하이퍼파라미터 세트를 선택하는 방법Manual Search: 설계자의 직관이나 경험에 기반하여 추정하고 결과를 관찰Grid Search: 모든 하이퍼파라미터 조합을 대상으로 모델을 학습하고 평가하여 가장 우수한 성능을 보이는 조합을 찾는 것Random Search: Grid Search와 동일한 방식으로 사용하나, 모든 조합을 다 .. 2024. 5. 27.
[2주차]9차시 피쳐 중요도(Feature Importance)타겟 변수를 예측하는데 얼마나 유용한 지에 따라 피쳐에 점수를 할당하여 중요도를 측정하는 방법Model-specific vs Model-agnosticModel-specific: 머신러닝 모델 자체에서 피쳐 중요도 계산이 가능한 경우Model-agnostic: 모델에서 제공하는 기능에 의존하지 않고 모델을 학습한 후에 적용되는 피쳐 중요도 계산법Boosting Tree 피쳐 중요도(Model-specific)LightGBM 피쳐 중요도 함수→학습된 LightGBM 모델 클래스에서 feature_importance(importance_type) 함수로 피쳐 중요도 계산 가능→importance_type 값에 'split'(트리를 만드는데 피쳐가 얼마나 사용됐는.. 2024. 5. 7.
[2주차]8차시 피쳐 엔지니어링(Feature Engineering)원본 데이터로부터 도메인 지식 등을 바탕으로 문제를 해결하는데 도움이 되는 피쳐를 생성, 변환하고 이를 머신러닝 모델에 적합한 형식으로 변환하는 작업머신러닝에서 모델의 성능을 향상 시킬 수 있는 가장 중요한 핵심 작업Pandas Group By Aggregation을 이용한 피쳐 엔지니어링원본 데이터에서 주어진 피쳐에 Group By Aggregation 함수를 적용해 새로운 피쳐 생성ex)total-sum, quantitiy-sum, price-sum 등Cross Validation을 이용한 Out Of Fold 예측모델 학습시 교차검증을 적용해서 Out of Fold 검증의 성능 측정 및 테스트 데이터 예측을 통해 성능 향상Out of Fold: 폴.. 2024. 4. 30.
728x90