- 데이터 전처리
- 연속형
- Scaling: 데이터의 단위 혹은 분포를 변경
→선형기반의 모델(선형회귀, 딥러닝 등)인 경우 변수들 간의 스케일을 맞추는 것이 필수적
→수치형 변수의 크기가 변수마다 다르다면 종속 변수에 미치는 영향력이 달라질 수 있음
- Min-Max Scaling: 변수의 범위를 바꿔주는 정규화 스케일링이며 이상값 존재에 민감(회귀모델에 적합)
- Standard Scaling: 데이터를 표준 정규 분포화시키는 z-score 정규화이며 이상값 존재에 민감(분류모델에 적합)
- Binning: 연속형 변수를 범주형 변수로 바꾸는 것, Overfitting 방지 - 범주형(일반적으로 문자형이기 때문에 수치형으로 인코딩)
-One hot encoding: 1이나 0으로 인코딩(존재 or 존재하지 않음)
-Label encoding: 한 개의 컬럼을 유지하면서 각 값에 따라 다른 숫자 입력
-Frequency encoding: 해당 값의 빈도를 통해 인코딩
-Target encoding: 각각의 타겟변수의 평균을 통해 인코딩
-Embedding
- 연속형
- 결측치 처리
- 결측치 패턴: 패턴이 있는지 랜덤한지 판단
- 랜덤한 경우
- 제거: 데이터가 충분히 많지 않다면 부적합
- 평균값 삽입: 결측치가 많다면 부적합
- 중위값 삽입: 결측치가 많다면 부적합
- 상수값 삽입: 결측치가 많다면 부적합
- 회귀분석을 통한 삽입(반복 작업)
- KNN 방법
- 변수 간의 관계를 보고 합리적으로 삽입
- 이상치 처리
- 모델의 성능에 큰 영향을 미칠 수 있으니 조심스럽게 처리
- 이상치 탐색: Z-Score, IQR
- 이상치 처리 관점: 정성적 측면(발생 이유 및 의미), 성능적 측면(훈련 및 테스트 데이터의 분포)
본 포스트의 학습 내용은 부스트클래스
<AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정>
강의 내용을 바탕으로 작성되었습니다.