본문 바로가기
728x90

분류 전체보기163

[TIL]본캠프 20일차 isna()데이터 프레임 내의 결측값 판단 메서드결측값이면 True, 결측값이 아니라면 False를 반환notna()의 경우, 결측값이면 False, 결측값이 아니라면 True를 반환isna().sum()을 통해 결측값의 갯수 확인dropna()결측값 제거 함수dropna(how=' ', axis=' ')how: any_하나라도 결측치가 존재하면 제거, all_행이 모두 결측치여야 제거axis: 0(행), 1(열), 0이 기본값fillna()결측값을 채워주는 함수#결측치 제거iris_dropna=iris_with_nan.dropna(subset='Sepal Width')#결측치를 평균값으로 대체iris_fillna=iris_with_nan.fillna(iris['Sepal Width'].mean())#결.. 2024. 5. 14.
[TIL]본캠프 19일차 isin()데이터 프레임 객체의 각 요소가 values값과 일치하는지 여부를 불리언 형식으로 반환df.isin(values)values에 시리즈나 데이터 프레임 등 다양한 형식이 올 수 있음→시리즈인 경우: Index가 일치해야함→데이터 프레임인 경우: Index와 열 레이블이 일치해야함→딕셔너리인 경우: key값이 열 레이블Matplotlibplot(): 2차원 데이터를 시각화하기 위해 사용color, linestyle, marker 등의 파라미터를 사용 가능lifestyle: '-' 실선, '--' 대시선, ':' 점선, '-.' 점-대시 선 등으로 지정marker: '원', '^' 삼각형, 's' 사각형, '+' 플러스, 'x' 엑스 legend(): 그래프의 범례를 추가set_xlabel(): x.. 2024. 5. 13.
[WIL]본캠프 4주차 일주일 동안 뭐했지?데이터 전처리 및 시각화 수강네이버 부스트클래스 코드리뷰 1차 제출SQL 코드카타 진행ADsP 복습FEELINGS🧐 휴일이 있기도 했고 ADsP 공부 때문에 이것저것 집중을 못한 느낌이다. 근데 정작 ADsP는 공부를 많이 못한 것 같아서 아쉽고 시험도 자신이 없는 느낌...그래도 일단 잘 마무리 해보는 걸로!!!!FINDINGS🔎 이전에는 seaborn 패키지를 통해 시각화하는 것에 더 익숙했는데 matplotlib을 배우게 되면서 다양한 방식으로 시각화가 가능해진 것 같다. 더불어 부스트클래스 복습을 통해 머신러닝에 계속 익숙해지는 중:)FUTURE✨ ADsP 마무리하고 다음주부터는 집중을 더 할 수 있도록 해야겠다.....그리고 다음주 금요일부터는 기초 프로젝트 시작!!! 2024. 5. 10.
[TIL]본캠프 18일차 K-fold 교차검증데이터를 k개의 집단으로 나누어 모델을 여러 번 훈련하고 평가하는 과정k-1개를 훈련용 데이터로, 나머지 1개를 평가용 데이터로 사용하여 구축된 k개의 모델을 종합하여 최종 모델 구축모델 정확도 향상 및 과소적합 방지 가능, but 모델 훈련에 많은 시간이 필요부트스트랩리샘플링 방법 중 하나로, 기존의 데이터 집단에서 복원추출을 통해 여러 개의 샘플을 생성하고 이를 이용해 모집단의 특성 추정표본을 다시 추출하는 경우: 모델의 신뢰도를 높여 성능을 개선하고자 할 때랜덤하게 반복 추출하여 머신러닝 모델의 성능 향상을 꾀할 수 있음데이터셋 분포가 고르지 않은 경우에 사용 가능하며 과적합을 줄일 수 있음계층별 K-겹 교차검증(Stratified K-fold cross validation)불균.. 2024. 5. 10.
728x90