본문 바로가기
Data/[네이버 부스트클래스 AI 엔지니어 기초 다지기]

[2주차]8차시

by MIN_JOON 2024. 4. 30.
  • 피쳐 엔지니어링(Feature Engineering)
    • 원본 데이터로부터 도메인 지식 등을 바탕으로 문제를 해결하는데 도움이 되는 피쳐를 생성, 변환하고 이를 머신러닝 모델에 적합한 형식으로 변환하는 작업
    • 머신러닝에서 모델의 성능을 향상 시킬 수 있는 가장 중요한 핵심 작업
  • Pandas Group By Aggregation을 이용한 피쳐 엔지니어링
    • 원본 데이터에서 주어진 피쳐에 Group By Aggregation 함수를 적용해 새로운 피쳐 생성
      ex)total-sum, quantitiy-sum, price-sum 등
  • Cross Validation을 이용한 Out Of Fold 예측
    • 모델 학습시 교차검증을 적용해서 Out of Fold 검증의 성능 측정 및 테스트 데이터 예측을 통해 성능 향상
    • Out of Fold: 폴드마다 학습한 모델로 테스트 데이터를 예측하며 폴드 갯수만큼 발생한 테스트 결과의 평균을 예측값으로 사용
  • LightGBM Early Stopping 적용
    • Early Stopping
      iteration을 통해 반복학습이 가능한 머신러닝 모델에서 검증 성능이 가장 좋은 하이퍼 파라미터에서 학습을 조기종료
    • LightGBM Early Stopping
      →몇 개의 트리를 만들 것인지를 n_estimators란 하이퍼파라미터로 설정하고 이 개수만큼 트리를 만들지만, 설정한 트리의 개수가 최적의 값이라고 볼 수 없음
      →validation 데이터가 있을 시, n_estimators는 충분히 크게 설정하고, early_stopping_rounds를 적절하게 설정
      →트리를 추가할 때마다 validation 성능을 측정하고 early_stopping_rounds값 이상 연속으로 성능이 좋아지지 않으면 트리를 더 이상 만들지 않으며 최종 트리 개수로 사용


본 포스트의 학습 내용은 부스트클래스

<AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정>

강의 내용을 바탕으로 작성되었습니다.

'Data > [네이버 부스트클래스 AI 엔지니어 기초 다지기]' 카테고리의 다른 글

[2주차]10차시  (1) 2024.05.27
[2주차]9차시  (0) 2024.05.07
[1주차]5차시  (3) 2024.04.26
[1주차]4차시  (2) 2024.04.25
[1주차]3차시  (2) 2024.04.24