728x90 머신러닝6 [1주차]3차시 데이터 전처리연속형- Scaling: 데이터의 단위 혹은 분포를 변경→선형기반의 모델(선형회귀, 딥러닝 등)인 경우 변수들 간의 스케일을 맞추는 것이 필수적→수치형 변수의 크기가 변수마다 다르다면 종속 변수에 미치는 영향력이 달라질 수 있음- Min-Max Scaling: 변수의 범위를 바꿔주는 정규화 스케일링이며 이상값 존재에 민감(회귀모델에 적합)- Standard Scaling: 데이터를 표준 정규 분포화시키는 z-score 정규화이며 이상값 존재에 민감(분류모델에 적합)- Binning: 연속형 변수를 범주형 변수로 바꾸는 것, Overfitting 방지범주형(일반적으로 문자형이기 때문에 수치형으로 인코딩)-One hot encoding: 1이나 0으로 인코딩(존재 or 존재하지 않음)-L.. 2024. 4. 24. [1주차]1차시 분류(Classification) 예측해야할 대상의 개수가 이미 정해져 있는 문제 회귀(Regression) 예측해야할 대상이 연속적인 숫자인 경우 혼돈행렬(Confusion Matrix) 예측과 실제 값 사이의 관계를 행렬 형태로 표현한 것 Confusion Matrix 예측 Negative Positive 실제 Negative TN(True Negative) FP(False Positive) Positive FN(False Negative) TP(True Positive) 정확도(Accuracy) (TP+TN)/(TP+TN+FP+FN) 전체 데이터 중 바르게 분류한 비율 불균형한 데이터에겐 부적합한 평가 지표 정밀도(Precision) TP/(TP+FP) Negative의 중요도가 Positive보다.. 2024. 4. 23. 이전 1 2 다음 728x90