본문 바로가기
728x90

데이터분석123

[1주차]5차시 트리 모델의 발전Decision TreeRandom ForsetAdaBoostGBMXGBoost,CatBoost(균형적 모델)LightGBM(비균형적 모델)Bagging데이터 셋을 샘플링하여 모델을 만들어 나가는 것이 특징샘플링한 데이터 셋을 하나로 하나의 Decision Tree 생성생성한 Decision Tree의 Decision들을 취합하여 하나의 Decision 생성Bootstrap(데이터를 여러 번 샘플링)+Aggregation(종합)Boosting랜덤하게 선택된 데이터 셋을 이용하여 하나의 트리를 만들고 예측 결과에 따라 가중치를 부여하여 다음 트리를 생성 BaggingBoosting트리 생성 방법병렬 모델(각 모델간 연관 X)순차적 모델(이전 트리의 오류 기반)특징다양한 트리 생성정밀한 트리.. 2024. 4. 26.
[WIL]본캠프 2주차 일주일 동안 뭐했지?데이터 분석 파이썬 강의 완강네이버 부스트클래스 수강SQL 코드카타 진행SQL 추가 세션 복습FEELINGS🧐 과거의 내가 벌여놓은 수 많은 일들 덕분에 할게 아주 많다. 하루 종일 강의 듣고 복습하고 과제하는 일주일이었는데 그래도 불안감은 없는 느낌. 앞으로 더 차근차근 해야겠다. 이제 불과 2주밖에 안됐음!!!FINDINGS🔎 파이썬의 클래스나 glob, os같은 다양한 함수나 메서드들이 존재하는걸 이번 주에 알게 됐다. 당장 모든 걸 기억할 수는 없겠지만 나중에 구글링을 위해서라도 이름이랑 명칭들은 기억해둘 것!!!그리고 머신러닝에 관해서도 좀 알게된 한 주 였다. 과거의 내 졸업논문 정말 막 썼구나.FUTURE✨ 파이썬에 대해 이해도가 조금 올라가고 있는 느낌이라 다음 프로.. 2024. 4. 26.
[TIL]본캠프 10일차 리스트 컴프리헨션리스트를 간결하게 생성하는 방법보통 반복문과 조건문을 사용하여 리스트를 생성코드를 간결하고 가독성 있게 만들어줌#리스트 컴프리헨션의 기본 구조[표현식 for 항목 in iterable if 조건문]lambda익명 함수로 이름없이 정의되는 간단한 함수이며 주로 한줄로 표현이름이 없기 때문에 임시로 필요한 경우에 사용함수가 짧고 명확한 경우에 유용#lambda 함수 예시square = lambda x: x**2print(square(5)) #출력:25glob파일 시스템에서 파일을 찾을 때 사용되는 유용한 도구파일 이름의 패턴 매칭을 통해 파일을 검색하고, 일치하는 파일들의 리스트 반환import glob#특정 확장자를 가진 파일 찾기file_list = glob.glob('sample_da.. 2024. 4. 26.
[1주차]4차시 Underfitting & OverfittingUnderfitting: 모델이 데이터를 설명하지 못함(학습 부족, 적은 데이터양 등)Overfitting: 모델이 Train set에서는 좋은 성능을 내지만 Validation set에서 낮은 성능을 내는 경우일반적으로 우리가 사용하는 데이터셋은 전체의 아주 작은 일부분(Sample dataset)Underfitting 방지더 많은 데이터로 더 오래 훈련피쳐를 더 많이 반영Variance가 높은 머신러닝 모델 사용Overfitting 제어Early stopping: 검증 데이터셋에 대한 오차가 증가하는 시점에서 학습을 조기종료(모델의 성능을 보장하지는 않음)Parameter norm penalty: 파라미터 값에 제약을 주어 모델의 복잡도를 낮추는 방법Da.. 2024. 4. 25.
728x90