본문 바로가기
728x90

내일배움캠프111

[TIL]본캠프 18일차 K-fold 교차검증데이터를 k개의 집단으로 나누어 모델을 여러 번 훈련하고 평가하는 과정k-1개를 훈련용 데이터로, 나머지 1개를 평가용 데이터로 사용하여 구축된 k개의 모델을 종합하여 최종 모델 구축모델 정확도 향상 및 과소적합 방지 가능, but 모델 훈련에 많은 시간이 필요부트스트랩리샘플링 방법 중 하나로, 기존의 데이터 집단에서 복원추출을 통해 여러 개의 샘플을 생성하고 이를 이용해 모집단의 특성 추정표본을 다시 추출하는 경우: 모델의 신뢰도를 높여 성능을 개선하고자 할 때랜덤하게 반복 추출하여 머신러닝 모델의 성능 향상을 꾀할 수 있음데이터셋 분포가 고르지 않은 경우에 사용 가능하며 과적합을 줄일 수 있음계층별 K-겹 교차검증(Stratified K-fold cross validation)불균.. 2024. 5. 10.
[TIL]본캠프 17일차 iloc행 번호 및 열 번호를 통해 특정 행과 열 데이터를 선택할 수 있음data.iloc[행 번호, 열 번호]import pandas as pd# 샘플 데이터프레임 생성data = { 'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50], 'C': [100, 200, 300, 400, 500]}df = pd.DataFrame(data)# iloc을 사용하여 특정 행과 열 선택selected_data = df.iloc[1:4, 0:2] # 인덱스 1부터 3까지의 행과 0부터 1까지의 열 선택print(selected_data)loc번호가 아닌 이름으로 선택하는 경우(인덱스가 특정 문자일 경우)data.loc['행 이름','열 이름']리스트 슬라이싱을 활용.. 2024. 5. 9.
[TIL]본캠프 16일차 로지스틱 회귀분석독립변수가 연속형, 종속변수가 범주형 데이터인 경우에 사용독립변수가 범주형일 경우 더미변수로 변환(ex-남성과 여성을 0과 1로 구분하는 경우)새로운 독립변수의 값이 주어질 때, 종속변수 각 범주에 속할 확률이 얼마인지를 추정주로 이진 분류가 기본이며, 세 개 이상의 집단을 분류하는 경우 다중 로지스틱 회귀분석이라고 함오즈(Odds)로지스틱 회귀분석에 사용하는 값으로, 성공할 확률이 실패할 확률의 몇 배인지를 나타내는 값오즈를 사용하여 각 범주에 분류될 확률값을 추정음수를 가질 수 없으며 확률갑과 오즈의 그래프는 비대칭성을 띤다는 한계가 존재로짓변환오즈에 로그를 취한 것을 로짓(Logit)이라 하며, 오즈의 한계를 극복하기 위해 사용오즈의 범위가 무한대에서 확장되며 확률과 로짓값의 그래프.. 2024. 5. 7.
[WIL]본캠프 3주차 일주일 동안 뭐했지?데이터 분석 파이썬 과제네이버 부스트클래스 수강SQL 코드카타 진행ADsP 완강FEELINGS🧐 이번 주는 파이썬 과제하느라 바빴던 한 주. 판다스 함수가 익숙해서 오히려 기본 문법으로 과제를 푸는게 어려웠던 느낌이다. 기본 문법을 한 번 더 복습해야겠다고 느낀 한 주 였다.FINDINGS🔎 ADsP와 부스트 클래스에서 머신러닝에 대해서 약간 배우게 됐는데 모델의 성능을 최적화하는 것과 하이퍼 파라미터의 튜닝 등에 대해서 어느정도 감을 잡은게 아닐까 한다.FUTURE✨ 다음 주에는 ADsP 시험이 있는데 한 번에 끝내는게 목표다😭 잘 마무리해서 잘 보고 끝내야겠다!!! 2024. 5. 3.
728x90