728x90 부스트클래스7 [2주차]9차시 피쳐 중요도(Feature Importance)타겟 변수를 예측하는데 얼마나 유용한 지에 따라 피쳐에 점수를 할당하여 중요도를 측정하는 방법Model-specific vs Model-agnosticModel-specific: 머신러닝 모델 자체에서 피쳐 중요도 계산이 가능한 경우Model-agnostic: 모델에서 제공하는 기능에 의존하지 않고 모델을 학습한 후에 적용되는 피쳐 중요도 계산법Boosting Tree 피쳐 중요도(Model-specific)LightGBM 피쳐 중요도 함수→학습된 LightGBM 모델 클래스에서 feature_importance(importance_type) 함수로 피쳐 중요도 계산 가능→importance_type 값에 'split'(트리를 만드는데 피쳐가 얼마나 사용됐는.. 2024. 5. 7. [2주차]8차시 피쳐 엔지니어링(Feature Engineering)원본 데이터로부터 도메인 지식 등을 바탕으로 문제를 해결하는데 도움이 되는 피쳐를 생성, 변환하고 이를 머신러닝 모델에 적합한 형식으로 변환하는 작업머신러닝에서 모델의 성능을 향상 시킬 수 있는 가장 중요한 핵심 작업Pandas Group By Aggregation을 이용한 피쳐 엔지니어링원본 데이터에서 주어진 피쳐에 Group By Aggregation 함수를 적용해 새로운 피쳐 생성ex)total-sum, quantitiy-sum, price-sum 등Cross Validation을 이용한 Out Of Fold 예측모델 학습시 교차검증을 적용해서 Out of Fold 검증의 성능 측정 및 테스트 데이터 예측을 통해 성능 향상Out of Fold: 폴.. 2024. 4. 30. [1주차]5차시 트리 모델의 발전Decision TreeRandom ForsetAdaBoostGBMXGBoost,CatBoost(균형적 모델)LightGBM(비균형적 모델)Bagging데이터 셋을 샘플링하여 모델을 만들어 나가는 것이 특징샘플링한 데이터 셋을 하나로 하나의 Decision Tree 생성생성한 Decision Tree의 Decision들을 취합하여 하나의 Decision 생성Bootstrap(데이터를 여러 번 샘플링)+Aggregation(종합)Boosting랜덤하게 선택된 데이터 셋을 이용하여 하나의 트리를 만들고 예측 결과에 따라 가중치를 부여하여 다음 트리를 생성 BaggingBoosting트리 생성 방법병렬 모델(각 모델간 연관 X)순차적 모델(이전 트리의 오류 기반)특징다양한 트리 생성정밀한 트리.. 2024. 4. 26. [1주차]4차시 Underfitting & OverfittingUnderfitting: 모델이 데이터를 설명하지 못함(학습 부족, 적은 데이터양 등)Overfitting: 모델이 Train set에서는 좋은 성능을 내지만 Validation set에서 낮은 성능을 내는 경우일반적으로 우리가 사용하는 데이터셋은 전체의 아주 작은 일부분(Sample dataset)Underfitting 방지더 많은 데이터로 더 오래 훈련피쳐를 더 많이 반영Variance가 높은 머신러닝 모델 사용Overfitting 제어Early stopping: 검증 데이터셋에 대한 오차가 증가하는 시점에서 학습을 조기종료(모델의 성능을 보장하지는 않음)Parameter norm penalty: 파라미터 값에 제약을 주어 모델의 복잡도를 낮추는 방법Da.. 2024. 4. 25. 이전 1 2 다음 728x90