728x90 Data/[네이버 부스트클래스 AI 엔지니어 기초 다지기]9 [1주차]5차시 트리 모델의 발전Decision TreeRandom ForsetAdaBoostGBMXGBoost,CatBoost(균형적 모델)LightGBM(비균형적 모델)Bagging데이터 셋을 샘플링하여 모델을 만들어 나가는 것이 특징샘플링한 데이터 셋을 하나로 하나의 Decision Tree 생성생성한 Decision Tree의 Decision들을 취합하여 하나의 Decision 생성Bootstrap(데이터를 여러 번 샘플링)+Aggregation(종합)Boosting랜덤하게 선택된 데이터 셋을 이용하여 하나의 트리를 만들고 예측 결과에 따라 가중치를 부여하여 다음 트리를 생성 BaggingBoosting트리 생성 방법병렬 모델(각 모델간 연관 X)순차적 모델(이전 트리의 오류 기반)특징다양한 트리 생성정밀한 트리.. 2024. 4. 26. [1주차]4차시 Underfitting & OverfittingUnderfitting: 모델이 데이터를 설명하지 못함(학습 부족, 적은 데이터양 등)Overfitting: 모델이 Train set에서는 좋은 성능을 내지만 Validation set에서 낮은 성능을 내는 경우일반적으로 우리가 사용하는 데이터셋은 전체의 아주 작은 일부분(Sample dataset)Underfitting 방지더 많은 데이터로 더 오래 훈련피쳐를 더 많이 반영Variance가 높은 머신러닝 모델 사용Overfitting 제어Early stopping: 검증 데이터셋에 대한 오차가 증가하는 시점에서 학습을 조기종료(모델의 성능을 보장하지는 않음)Parameter norm penalty: 파라미터 값에 제약을 주어 모델의 복잡도를 낮추는 방법Da.. 2024. 4. 25. [1주차]3차시 데이터 전처리연속형- Scaling: 데이터의 단위 혹은 분포를 변경→선형기반의 모델(선형회귀, 딥러닝 등)인 경우 변수들 간의 스케일을 맞추는 것이 필수적→수치형 변수의 크기가 변수마다 다르다면 종속 변수에 미치는 영향력이 달라질 수 있음- Min-Max Scaling: 변수의 범위를 바꿔주는 정규화 스케일링이며 이상값 존재에 민감(회귀모델에 적합)- Standard Scaling: 데이터를 표준 정규 분포화시키는 z-score 정규화이며 이상값 존재에 민감(분류모델에 적합)- Binning: 연속형 변수를 범주형 변수로 바꾸는 것, Overfitting 방지범주형(일반적으로 문자형이기 때문에 수치형으로 인코딩)-One hot encoding: 1이나 0으로 인코딩(존재 or 존재하지 않음)-L.. 2024. 4. 24. [1주차]2차시 concatenate 연산 파이썬 Numpy 라이브러리를 이용해 계산 가능 여러 개의 배열을 연결하여 하나의 배열로 만들어줌 기본 문법 : np.concatenate((arr1, arr2, ...), axis=0) 첫 번째 인자로 연결할 배열들의 튜플이나 리스트 입력 두 번째 인자로 축(axis) 설정(0일 경우 열방향, 1일 경우 행방향) #concatenate 예시 matrix1=np.array([[5,7], [9,11]]) matrix2=np.array([[2,4], [6,8]]) result1=np.concatenate((matrix1,matrix2),axis=0) result2=np.concatenate((matrix1,matrix2),axis=1) Numpy를 이용한 유클리드 거리 Numpy .. 2024. 4. 23. 이전 1 2 3 다음 728x90