본문 바로가기
728x90

모비니티41

[성동1기 전Z전능 데이터 분석가] Day 37 통계 분석 기술 통계 분석: 데이터를 요약해 설명하는 통계분석 기법 추론 통계 분석: 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산 통계적 가설 검정: 유의확률을 이용해 가설을 검정하는 방법(일반적으로 유의확률 5%를 판단 기준으로 삼는다.) 유의확률(P-Value): 실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률 유의확률이 5%보다 클 경우 →집단 간 차이가 통계적으로 유의하지 않다. →실제로 차이가 없더라도, 우연에 의해 이런 정도의 차이가 관찰될 가능성이 크다. 유의활률이 5%보다 작을 경우 →집단 간 차이가 통계적으로 유의하다. →실제로 차이가 없는데 우연에 의해 이런 정도의 차이가 관찰될 가능성이 적다.(우연이라고 보기 힘들다.) T-검정(T-Test.. 2023. 12. 5.
[성동1기 전Z전능 데이터 분석가] Day 36 SQL 프로젝트를 Python으로 다시 해보기 SQL 프로젝트와 똑같이 기술 담당자로 프로젝트 진행 서울시 공공자전거(따릉이) 데이터를 이용 CSV 파일 불러오기 import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt plt.rcParams.update({'font.family':'Malgun Gothic', 'figure.dpi':'150', 'figure.figsize':[8,6], 'font.size':'10'}) place_list=pd.read_csv("공공자전거 대여소 정보(23.06월 기준).csv", encoding='cp949') trouble_list=pd.read_csv("서.. 2023. 12. 4.
[성동1기 전Z전능 데이터 분석가] Day 35 그래프 데이터를 보기 쉽게 그림으로 표현 추세와 경향성이 드러나 데이터의 특징을 쉽게 이해할 수 있음 새로운 패턴 발견, 데이터의 특징을 잘 전달 다양한 그래프가 존재(2차원, 3차원, 지도 그래프, 네트워크 그래프, 모션 차트 등등) seaborn 패키지: 그래프를 만들 때 자주 사용되는 패키지로 코드가 쉽고 간결함 산점도(scatter plot) 데이터를 x축과 y축에 점으로 표현한 그래프 나이와 소득처럼 연속값으로 된 두 변수의 관계를 표현할 때 사용 #산점도 만들기 #x축은 displ,y축은 hwy sns.scatterplot(data=mpg,x='displ',y='hwy'); #x축 범위를 3~6,y축 범위를 10~30으로 제한 sns.scatterplot(data=mpg,x='displ',y=.. 2023. 12. 1.
[성동1기 전Z전능 데이터 분석가] Day 34 변수 추출하기 : df[ ] 추출하려는 데이터 프레임 이름 뒤에 []를 입력한 다음 추출할 변수명을 따옴표로 감싸서 입력 #exam에서 변수 추출 exam[['nclass','english','math']] #'nclass','english','math'만 추출 exam[['math']] #'math' 하나만 추출해도 데이터 프레임 유지 가능([]아니면 시리즈로 추출) #변수 제거 exam.drop(columns='math') #'math'제거 exam.drop(columns=['math','english']) #'math','english' 제거 #pandas 함수와 함께 사용 exam.query('nclass==1')['english'] #nclass가 1인 행만 추출하고 english 추출 exam.. 2023. 11. 30.
728x90