본문 바로가기
Data/[스파르타 내일배움캠프]

[TIL]본캠프 77일차 & 78일차

by MIN_JOON 2024. 8. 6.
  • 최종 프로젝트 중간 발표 기간
  • Robust Scaling
    • 데이터의 중앙값을 뺀 다음, 사분위수 범위로 나누어 스케일링 하는 것
    • 이상치에 덜 민감한 스케일링을 할 때 유용
    • 변환 값 = {해당 값 - 중앙값(Median)} / IQR
    • 서로 다른 특성 간에 일관된 스케일을 유지하여 알고리즘이 각 특성을 공정하게 처리할 수 있도록 함
  • Log Transformation
    • 로그 변환을 통해 왜도와 첨도를 가진 변수를 정규분포에 가깝게 만들어줌
    • 작은 수는 크게, 큰 수는 작게 변환
  • 정규성 검정(Normality Test)
    • 데이터셋의 분포가 정규 분포를 따르는지 검정하는 것
    • 여러 검정법들이 데이터의 정규 분포를 가정하고 수행되기 때문에, 데이터 자체의 정규성을 확인하는 검정과정
    • Shaprio-Wilks Test : 표본 수가 2000 미만인 데이터 셋에 적합
    • Kolmogorove-Smirnov Test: 표본 수가 2000 초과인 데이터 셋에 적합
    • Quantile-Quantile plot: 데이터셋이 정규분포를 따르는지 판단하는 시각적 분석 방법

'Data > [스파르타 내일배움캠프]' 카테고리의 다른 글

[TIL]본캠프 80일차  (0) 2024.08.08
[TIL]본캠프 79일차  (0) 2024.08.07
[WIL]본캠프 16주차  (0) 2024.08.02
[TIL]본캠프 76일차  (0) 2024.08.02
[TIL]본캠프 75일차  (0) 2024.08.01