본문 바로가기
728x90

분류 전체보기163

[2주차]8차시 피쳐 엔지니어링(Feature Engineering)원본 데이터로부터 도메인 지식 등을 바탕으로 문제를 해결하는데 도움이 되는 피쳐를 생성, 변환하고 이를 머신러닝 모델에 적합한 형식으로 변환하는 작업머신러닝에서 모델의 성능을 향상 시킬 수 있는 가장 중요한 핵심 작업Pandas Group By Aggregation을 이용한 피쳐 엔지니어링원본 데이터에서 주어진 피쳐에 Group By Aggregation 함수를 적용해 새로운 피쳐 생성ex)total-sum, quantitiy-sum, price-sum 등Cross Validation을 이용한 Out Of Fold 예측모델 학습시 교차검증을 적용해서 Out of Fold 검증의 성능 측정 및 테스트 데이터 예측을 통해 성능 향상Out of Fold: 폴.. 2024. 4. 30.
[TIL]본캠프 11일차 기술통계(Descriptive Statistics)지표의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리 및 요약하는 것데이터의 대략적인 통계적 수치를 계산할 수 있음히스토그램주어진 데이터를 구간으로 나누고 각 구간에 속하는 데이터의 빈도를 막대로 표현한 그래프주로 데이터의 분포나 모양 및 특성을 파악하는데 사용연속형으로 표시된 데이터(키, 몸무게, 성적 등)를 표현하여 임의로 순서를 변경할 수 없고 막대 사이의 간격이 없음데이터의 수를 활용하여 계급 수와 간격을 계산하여 도수분포표를 그리고 히스토그램을 생성계급의 수: 2^k ≥ n을 만족하는 최소의 정수(k = 계급수, n=데이터 수)cf)막대그래프: 범주형 데이터를 표현하며 범주의 순서를 의도적으로 바꿀 수 있음줄기-잎 그림(S.. 2024. 4. 29.
[1주차]5차시 트리 모델의 발전Decision TreeRandom ForsetAdaBoostGBMXGBoost,CatBoost(균형적 모델)LightGBM(비균형적 모델)Bagging데이터 셋을 샘플링하여 모델을 만들어 나가는 것이 특징샘플링한 데이터 셋을 하나로 하나의 Decision Tree 생성생성한 Decision Tree의 Decision들을 취합하여 하나의 Decision 생성Bootstrap(데이터를 여러 번 샘플링)+Aggregation(종합)Boosting랜덤하게 선택된 데이터 셋을 이용하여 하나의 트리를 만들고 예측 결과에 따라 가중치를 부여하여 다음 트리를 생성 BaggingBoosting트리 생성 방법병렬 모델(각 모델간 연관 X)순차적 모델(이전 트리의 오류 기반)특징다양한 트리 생성정밀한 트리.. 2024. 4. 26.
[WIL]본캠프 2주차 일주일 동안 뭐했지?데이터 분석 파이썬 강의 완강네이버 부스트클래스 수강SQL 코드카타 진행SQL 추가 세션 복습FEELINGS🧐 과거의 내가 벌여놓은 수 많은 일들 덕분에 할게 아주 많다. 하루 종일 강의 듣고 복습하고 과제하는 일주일이었는데 그래도 불안감은 없는 느낌. 앞으로 더 차근차근 해야겠다. 이제 불과 2주밖에 안됐음!!!FINDINGS🔎 파이썬의 클래스나 glob, os같은 다양한 함수나 메서드들이 존재하는걸 이번 주에 알게 됐다. 당장 모든 걸 기억할 수는 없겠지만 나중에 구글링을 위해서라도 이름이랑 명칭들은 기억해둘 것!!!그리고 머신러닝에 관해서도 좀 알게된 한 주 였다. 과거의 내 졸업논문 정말 막 썼구나.FUTURE✨ 파이썬에 대해 이해도가 조금 올라가고 있는 느낌이라 다음 프로.. 2024. 4. 26.
728x90