본문 바로가기
Data/[네이버 부스트클래스 AI 엔지니어 기초 다지기]

[1주차]3차시

by MIN_JOON 2024. 4. 24.
  • 데이터 전처리
    1. 연속형

      - Scaling: 데이터의 단위 혹은 분포를 변경
      →선형기반의 모델(선형회귀, 딥러닝 등)인 경우 변수들 간의 스케일을 맞추는 것이 필수적
      →수치형 변수의 크기가 변수마다 다르다면 종속 변수에 미치는 영향력이 달라질 수 있음
      - Min-Max Scaling: 변수의 범위를 바꿔주는 정규화 스케일링이며 이상값 존재에 민감(회귀모델에 적합)
      -
      Standard Scaling: 데이터를 표준 정규 분포화시키는 z-score 정규화이며 이상값 존재에 민감(분류모델에 적합)
      - Binning: 연속형 변수를 범주형 변수로 바꾸는 것, Overfitting 방지

    2. 범주형(일반적으로 문자형이기 때문에 수치형으로 인코딩)

      -One hot encoding: 1이나 0으로 인코딩(존재 or 존재하지 않음)
      -Label encoding: 한 개의 컬럼을 유지하면서 각 값에 따라 다른 숫자 입력
      -Frequency encoding: 해당 값의 빈도를 통해 인코딩
      -Target encoding: 각각의 타겟변수의 평균을 통해 인코딩
      -Embedding
  • 결측치 처리
    • 결측치 패턴: 패턴이 있는지 랜덤한지 판단
    • 랜덤한 경우
      1. 제거: 데이터가 충분히 많지 않다면 부적합
      2. 평균값 삽입: 결측치가 많다면 부적합
      3. 중위값 삽입: 결측치가 많다면 부적합
      4. 상수값 삽입: 결측치가 많다면 부적합
      5. 회귀분석을 통한 삽입(반복 작업)
      6. KNN 방법
      7. 변수 간의 관계를 보고 합리적으로 삽입
  • 이상치 처리
    • 모델의 성능에 큰 영향을 미칠 수 있으니 조심스럽게 처리
    • 이상치 탐색: Z-Score, IQR
    • 이상치 처리 관점: 정성적 측면(발생 이유 및 의미), 성능적 측면(훈련 및 테스트 데이터의 분포)

본 포스트의 학습 내용은 부스트클래스

<AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정>

강의 내용을 바탕으로 작성되었습니다.

'Data > [네이버 부스트클래스 AI 엔지니어 기초 다지기]' 카테고리의 다른 글

[2주차]8차시  (2) 2024.04.30
[1주차]5차시  (3) 2024.04.26
[1주차]4차시  (2) 2024.04.25
[1주차]2차시  (4) 2024.04.23
[1주차]1차시  (2) 2024.04.23