본문 바로가기
728x90

데이터분석가155

[TIL]본캠프 17일차 iloc행 번호 및 열 번호를 통해 특정 행과 열 데이터를 선택할 수 있음data.iloc[행 번호, 열 번호]import pandas as pd# 샘플 데이터프레임 생성data = { 'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50], 'C': [100, 200, 300, 400, 500]}df = pd.DataFrame(data)# iloc을 사용하여 특정 행과 열 선택selected_data = df.iloc[1:4, 0:2] # 인덱스 1부터 3까지의 행과 0부터 1까지의 열 선택print(selected_data)loc번호가 아닌 이름으로 선택하는 경우(인덱스가 특정 문자일 경우)data.loc['행 이름','열 이름']리스트 슬라이싱을 활용.. 2024. 5. 9.
[TIL]본캠프 16일차 로지스틱 회귀분석독립변수가 연속형, 종속변수가 범주형 데이터인 경우에 사용독립변수가 범주형일 경우 더미변수로 변환(ex-남성과 여성을 0과 1로 구분하는 경우)새로운 독립변수의 값이 주어질 때, 종속변수 각 범주에 속할 확률이 얼마인지를 추정주로 이진 분류가 기본이며, 세 개 이상의 집단을 분류하는 경우 다중 로지스틱 회귀분석이라고 함오즈(Odds)로지스틱 회귀분석에 사용하는 값으로, 성공할 확률이 실패할 확률의 몇 배인지를 나타내는 값오즈를 사용하여 각 범주에 분류될 확률값을 추정음수를 가질 수 없으며 확률갑과 오즈의 그래프는 비대칭성을 띤다는 한계가 존재로짓변환오즈에 로그를 취한 것을 로짓(Logit)이라 하며, 오즈의 한계를 극복하기 위해 사용오즈의 범위가 무한대에서 확장되며 확률과 로짓값의 그래프.. 2024. 5. 7.
[2주차]9차시 피쳐 중요도(Feature Importance)타겟 변수를 예측하는데 얼마나 유용한 지에 따라 피쳐에 점수를 할당하여 중요도를 측정하는 방법Model-specific vs Model-agnosticModel-specific: 머신러닝 모델 자체에서 피쳐 중요도 계산이 가능한 경우Model-agnostic: 모델에서 제공하는 기능에 의존하지 않고 모델을 학습한 후에 적용되는 피쳐 중요도 계산법Boosting Tree 피쳐 중요도(Model-specific)LightGBM 피쳐 중요도 함수→학습된 LightGBM 모델 클래스에서 feature_importance(importance_type) 함수로 피쳐 중요도 계산 가능→importance_type 값에 'split'(트리를 만드는데 피쳐가 얼마나 사용됐는.. 2024. 5. 7.
[WIL]본캠프 3주차 일주일 동안 뭐했지?데이터 분석 파이썬 과제네이버 부스트클래스 수강SQL 코드카타 진행ADsP 완강FEELINGS🧐 이번 주는 파이썬 과제하느라 바빴던 한 주. 판다스 함수가 익숙해서 오히려 기본 문법으로 과제를 푸는게 어려웠던 느낌이다. 기본 문법을 한 번 더 복습해야겠다고 느낀 한 주 였다.FINDINGS🔎 ADsP와 부스트 클래스에서 머신러닝에 대해서 약간 배우게 됐는데 모델의 성능을 최적화하는 것과 하이퍼 파라미터의 튜닝 등에 대해서 어느정도 감을 잡은게 아닐까 한다.FUTURE✨ 다음 주에는 ADsP 시험이 있는데 한 번에 끝내는게 목표다😭 잘 마무리해서 잘 보고 끝내야겠다!!! 2024. 5. 3.
728x90