728x90 머신러닝6 [2주차]10차시 하이퍼파라미터(Hyperparameter)기계학습 모델훈련을 관리하는데 사용하는 외부 구성 변수모델을 훈련하기 전에 사용자에 의해 수동으로 설정됨최적값이나 기본값이 없음파라미터(Parameter)모델 내부에서 결정되는 변수로 데이터로부터 결정사용자에 의해 조정되지 않음모델링에 의해 자동으로 결정되는 값하이퍼 파라미터 튜닝기계학습 모델의 성능을 최적화하는 중요한 과정으로 최적의 하이퍼파라미터 세트를 선택하는 방법Manual Search: 설계자의 직관이나 경험에 기반하여 추정하고 결과를 관찰Grid Search: 모든 하이퍼파라미터 조합을 대상으로 모델을 학습하고 평가하여 가장 우수한 성능을 보이는 조합을 찾는 것Random Search: Grid Search와 동일한 방식으로 사용하나, 모든 조합을 다 .. 2024. 5. 27. [2주차]8차시 피쳐 엔지니어링(Feature Engineering)원본 데이터로부터 도메인 지식 등을 바탕으로 문제를 해결하는데 도움이 되는 피쳐를 생성, 변환하고 이를 머신러닝 모델에 적합한 형식으로 변환하는 작업머신러닝에서 모델의 성능을 향상 시킬 수 있는 가장 중요한 핵심 작업Pandas Group By Aggregation을 이용한 피쳐 엔지니어링원본 데이터에서 주어진 피쳐에 Group By Aggregation 함수를 적용해 새로운 피쳐 생성ex)total-sum, quantitiy-sum, price-sum 등Cross Validation을 이용한 Out Of Fold 예측모델 학습시 교차검증을 적용해서 Out of Fold 검증의 성능 측정 및 테스트 데이터 예측을 통해 성능 향상Out of Fold: 폴.. 2024. 4. 30. [1주차]5차시 트리 모델의 발전Decision TreeRandom ForsetAdaBoostGBMXGBoost,CatBoost(균형적 모델)LightGBM(비균형적 모델)Bagging데이터 셋을 샘플링하여 모델을 만들어 나가는 것이 특징샘플링한 데이터 셋을 하나로 하나의 Decision Tree 생성생성한 Decision Tree의 Decision들을 취합하여 하나의 Decision 생성Bootstrap(데이터를 여러 번 샘플링)+Aggregation(종합)Boosting랜덤하게 선택된 데이터 셋을 이용하여 하나의 트리를 만들고 예측 결과에 따라 가중치를 부여하여 다음 트리를 생성 BaggingBoosting트리 생성 방법병렬 모델(각 모델간 연관 X)순차적 모델(이전 트리의 오류 기반)특징다양한 트리 생성정밀한 트리.. 2024. 4. 26. [1주차]4차시 Underfitting & OverfittingUnderfitting: 모델이 데이터를 설명하지 못함(학습 부족, 적은 데이터양 등)Overfitting: 모델이 Train set에서는 좋은 성능을 내지만 Validation set에서 낮은 성능을 내는 경우일반적으로 우리가 사용하는 데이터셋은 전체의 아주 작은 일부분(Sample dataset)Underfitting 방지더 많은 데이터로 더 오래 훈련피쳐를 더 많이 반영Variance가 높은 머신러닝 모델 사용Overfitting 제어Early stopping: 검증 데이터셋에 대한 오차가 증가하는 시점에서 학습을 조기종료(모델의 성능을 보장하지는 않음)Parameter norm penalty: 파라미터 값에 제약을 주어 모델의 복잡도를 낮추는 방법Da.. 2024. 4. 25. 이전 1 2 다음 728x90