728x90 부스트클래스7 [1주차]3차시 데이터 전처리연속형- Scaling: 데이터의 단위 혹은 분포를 변경→선형기반의 모델(선형회귀, 딥러닝 등)인 경우 변수들 간의 스케일을 맞추는 것이 필수적→수치형 변수의 크기가 변수마다 다르다면 종속 변수에 미치는 영향력이 달라질 수 있음- Min-Max Scaling: 변수의 범위를 바꿔주는 정규화 스케일링이며 이상값 존재에 민감(회귀모델에 적합)- Standard Scaling: 데이터를 표준 정규 분포화시키는 z-score 정규화이며 이상값 존재에 민감(분류모델에 적합)- Binning: 연속형 변수를 범주형 변수로 바꾸는 것, Overfitting 방지범주형(일반적으로 문자형이기 때문에 수치형으로 인코딩)-One hot encoding: 1이나 0으로 인코딩(존재 or 존재하지 않음)-L.. 2024. 4. 24. [1주차]2차시 concatenate 연산 파이썬 Numpy 라이브러리를 이용해 계산 가능 여러 개의 배열을 연결하여 하나의 배열로 만들어줌 기본 문법 : np.concatenate((arr1, arr2, ...), axis=0) 첫 번째 인자로 연결할 배열들의 튜플이나 리스트 입력 두 번째 인자로 축(axis) 설정(0일 경우 열방향, 1일 경우 행방향) #concatenate 예시 matrix1=np.array([[5,7], [9,11]]) matrix2=np.array([[2,4], [6,8]]) result1=np.concatenate((matrix1,matrix2),axis=0) result2=np.concatenate((matrix1,matrix2),axis=1) Numpy를 이용한 유클리드 거리 Numpy .. 2024. 4. 23. [1주차]1차시 분류(Classification) 예측해야할 대상의 개수가 이미 정해져 있는 문제 회귀(Regression) 예측해야할 대상이 연속적인 숫자인 경우 혼돈행렬(Confusion Matrix) 예측과 실제 값 사이의 관계를 행렬 형태로 표현한 것 Confusion Matrix 예측 Negative Positive 실제 Negative TN(True Negative) FP(False Positive) Positive FN(False Negative) TP(True Positive) 정확도(Accuracy) (TP+TN)/(TP+TN+FP+FN) 전체 데이터 중 바르게 분류한 비율 불균형한 데이터에겐 부적합한 평가 지표 정밀도(Precision) TP/(TP+FP) Negative의 중요도가 Positive보다.. 2024. 4. 23. 이전 1 2 다음 728x90