본문 바로가기
728x90

데이터분석123

[TIL]본캠프 13일차 apply() 메서드객체의 열 또는 행에 대해 함수를 적용하게 해주는 메서드적용 방식: result=df.apply(func,axis=0,raw=False,result_type=None,*args=(),**kwds)func: 적용할 함수를 입력axis: 함수를 적용할 축을 지정(0이나 index=열에 따라 적용, 1이나 column: 행에 따라 적용,기본값:0)raw: False가 기본값이며 각 행이나 열을 함수로 적용하기 전에 Series로 바꿈, True인 경우 ndarray 객체로 입력result_type: reduce, broadcast, expand의 세가지 타입을 가지며 출력되는 데이터 타입을 조절*args: 함수에 입력되는 위치 입력변수(iterable한 자료형-리스트, 튜플 등)**kwds.. 2024. 5. 1.
[TIL]본캠프 12일차 그룹별 통계량 계산groupby 메서드를 이용해 데이터를 그룹화하여 연산할 수 있음df.groupby('그룹화할 칼럼명')과 같은 방식으로 사용.agg()를 이용하여 다중 통계량 계산 또한 가능 #예시(타이타닉 데이터 사용)#groupby 메서드 미사용df['Age'].mean().round(2) #테이블 내 평균 나이 계산(round 이용 가능)df['Sex'].value_counts() #성별에 따른 탑승객 수#groupby 메서드 사용df.groupby('Pclass',as_index=False).agg(Pclass_count=('Pclass','count')) #선실등급별 이용객 수딕셔너리 복습파이썬 딕셔너리는 키-값 쌍의 데이터를 저장, 중괄호{}로 둘러싸여 .. 2024. 4. 30.
[2주차]8차시 피쳐 엔지니어링(Feature Engineering)원본 데이터로부터 도메인 지식 등을 바탕으로 문제를 해결하는데 도움이 되는 피쳐를 생성, 변환하고 이를 머신러닝 모델에 적합한 형식으로 변환하는 작업머신러닝에서 모델의 성능을 향상 시킬 수 있는 가장 중요한 핵심 작업Pandas Group By Aggregation을 이용한 피쳐 엔지니어링원본 데이터에서 주어진 피쳐에 Group By Aggregation 함수를 적용해 새로운 피쳐 생성ex)total-sum, quantitiy-sum, price-sum 등Cross Validation을 이용한 Out Of Fold 예측모델 학습시 교차검증을 적용해서 Out of Fold 검증의 성능 측정 및 테스트 데이터 예측을 통해 성능 향상Out of Fold: 폴.. 2024. 4. 30.
[TIL]본캠프 11일차 기술통계(Descriptive Statistics)지표의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리 및 요약하는 것데이터의 대략적인 통계적 수치를 계산할 수 있음히스토그램주어진 데이터를 구간으로 나누고 각 구간에 속하는 데이터의 빈도를 막대로 표현한 그래프주로 데이터의 분포나 모양 및 특성을 파악하는데 사용연속형으로 표시된 데이터(키, 몸무게, 성적 등)를 표현하여 임의로 순서를 변경할 수 없고 막대 사이의 간격이 없음데이터의 수를 활용하여 계급 수와 간격을 계산하여 도수분포표를 그리고 히스토그램을 생성계급의 수: 2^k ≥ n을 만족하는 최소의 정수(k = 계급수, n=데이터 수)cf)막대그래프: 범주형 데이터를 표현하며 범주의 순서를 의도적으로 바꿀 수 있음줄기-잎 그림(S.. 2024. 4. 29.
728x90