[1주차]3차시

데이터 전처리
1. 연속형
  
  - Scaling: 데이터의 단위 혹은 분포를 변경
  →선형기반의 모델(선형회귀, 딥러닝 등)인 경우 변수들 간의 스케일을 맞추는 것이 필수적
  →수치형 변수의 크기가 변수마다 다르다면 종속 변수에 미치는 영향력이 달라질 수 있음
  - Min-Max Scaling: 변수의 범위를 바꿔주는 정규화 스케일링이며 이상값 존재에 민감(회귀모델에 적합)
  - Standard Scaling: 데이터를 표준 정규 분포화시키는 z-score 정규화이며 이상값 존재에 민감(분류모델에 적합)
  - Binning: 연속형 변수를 범주형 변수로 바꾸는 것, Overfitting 방지
2. 범주형(일반적으로 문자형이기 때문에 수치형으로 인코딩)
  
  -One hot encoding: 1이나 0으로 인코딩(존재 or 존재하지 않음)
  -Label encoding: 한 개의 컬럼을 유지하면서 각 값에 따라 다른 숫자 입력
  -Frequency encoding: 해당 값의 빈도를 통해 인코딩
  -Target encoding: 각각의 타겟변수의 평균을 통해 인코딩
  -Embedding
결측치 처리
- 결측치 패턴: 패턴이 있는지 랜덤한지 판단
- 랜덤한 경우
  1. 제거: 데이터가 충분히 많지 않다면 부적합
  2. 평균값 삽입: 결측치가 많다면 부적합
  3. 중위값 삽입: 결측치가 많다면 부적합
  4. 상수값 삽입: 결측치가 많다면 부적합
  5. 회귀분석을 통한 삽입(반복 작업)
  6. KNN 방법
  7. 변수 간의 관계를 보고 합리적으로 삽입
이상치 처리
- 모델의 성능에 큰 영향을 미칠 수 있으니 조심스럽게 처리
- 이상치 탐색: Z-Score, IQR
- 이상치 처리 관점: 정성적 측면(발생 이유 및 의미), 성능적 측면(훈련 및 테스트 데이터의 분포)

본 포스트의 학습 내용은 부스트클래스

강의 내용을 바탕으로 작성되었습니다.

'Data > [네이버 부스트클래스 AI 엔지니어 기초 다지기]' 카테고리의 다른 글

[2주차]8차시 (2)	2024.04.30
[1주차]5차시 (3)	2024.04.26
[1주차]4차시 (2)	2024.04.25
[1주차]2차시 (4)	2024.04.23
[1주차]1차시 (2)	2024.04.23

Hello:) I'm _______

[1주차]3차시

'Data > [네이버 부스트클래스 AI 엔지니어 기초 다지기]' 카테고리의 다른 글

티스토리툴바

[1주차]3차시

'Data > [네이버 부스트클래스 AI 엔지니어 기초 다지기]' 카테고리의 다른 글

관련글

티스토리툴바