- 최종 프로젝트 중간 발표 기간
- Robust Scaling
- 데이터의 중앙값을 뺀 다음, 사분위수 범위로 나누어 스케일링 하는 것
- 이상치에 덜 민감한 스케일링을 할 때 유용
- 변환 값 = {해당 값 - 중앙값(Median)} / IQR
- 서로 다른 특성 간에 일관된 스케일을 유지하여 알고리즘이 각 특성을 공정하게 처리할 수 있도록 함
- Log Transformation
- 로그 변환을 통해 왜도와 첨도를 가진 변수를 정규분포에 가깝게 만들어줌
- 작은 수는 크게, 큰 수는 작게 변환
- 정규성 검정(Normality Test)
- 데이터셋의 분포가 정규 분포를 따르는지 검정하는 것
- 여러 검정법들이 데이터의 정규 분포를 가정하고 수행되기 때문에, 데이터 자체의 정규성을 확인하는 검정과정
- Shaprio-Wilks Test : 표본 수가 2000 미만인 데이터 셋에 적합
- Kolmogorove-Smirnov Test: 표본 수가 2000 초과인 데이터 셋에 적합
- Quantile-Quantile plot: 데이터셋이 정규분포를 따르는지 판단하는 시각적 분석 방법
'Data > [스파르타 내일배움캠프]' 카테고리의 다른 글
[TIL]본캠프 80일차 (0) | 2024.08.08 |
---|---|
[TIL]본캠프 79일차 (0) | 2024.08.07 |
[WIL]본캠프 16주차 (0) | 2024.08.02 |
[TIL]본캠프 76일차 (0) | 2024.08.02 |
[TIL]본캠프 75일차 (0) | 2024.08.01 |