본문 바로가기
728x90

Data/[SeSAC 성동1기 전Z전능 데이터 분석가]41

[성동1기 전Z전능 데이터 분석가] Day 29 서울시 공공자전거(따릉이) 데이터를 이용한 EDA 프로젝트 마무리 및 발표 SQL과 구글 스프레드 시트, Looker Studio 등 시각화에 이용할 수 있는 것은 모두 이용해서 프로젝트를 진행하였다. 지금까지 SQL을 배운 이후 가장 많은 쿼리를 짠 날이 아닐까 싶은데 덕분에 SQL은 많이 늘고 있는 것 같다. 또한 온라인으로 진행되는 날이다 보니 소통에 어려운 부분이 있기도 하고 비교적 짧은 시간에 진행하다보니 많이 어려운 느낌이 들기도 한다. 성별, 연령별, 지역별 이용자 분포 남성의 경우 20대와 30대가 비슷한 비율로 가장 많은 이용자 수를 보임 여성의 경우 20대가 30대보다 조금 많은 비율의 이용자 수를 보임 지역별로는 남성과 여성 모두 동일하게 강서구, 송파구, 영등포구에서 많은 이용자 수.. 2023. 11. 26.
[성동 1기 전Z전능 데이터 분석가] Day 28 EDA(Exploratory Data Analysis): 탐색적 데이터 분석 주어진 데이터를 탐색하고 이해하는 과정 주어진 데이터들 안에서 다양한 패턴이나 잠재적인 문제들을 발견 가설을 세우기 전에 데이터를 이해하는 과정 EDA를 왜 하는 것일까? 데이터 자체에 대한 이해와 해석이 잘못되면 추후의 데이터 분석의 결과가 잘못될 가능성이 크다. EDA의 분석 대상 일변량(Univariate): EDA를 통해 파악하려는 변수 1개(데이터를 설명하고 패턴을 찾는 것이 목적) →어떤 대상의 성격을 규명하기 위하여 한 가지 측면에서 그 대상을 관찰하고 분석 다변량(Multi-variate): EDA를 통해 파악하려는 변수 여러개(변수들 간의 관계를 보는 것이 목적) →여러 개의 독립변수에 여러 개의 종속변수를 동시.. 2023. 11. 23.
[성동1기 전Z전능 데이터 분석가] Day 27 SQL 실무 프로젝트의 데이터 중복 측정 및 데이터 전처리 진행+탐색적 데이터 분석(EDA) 중복 데이터: 반납대여소 이름은 1개인데 반납대여소 번호는 2개인 경우 rent_detail 국회 3문 (297, 4580) 천왕이펜하우스5단지 앞 (1981, 2817) 한양수자인아파트 앞 (1828, 4811) place_list 한양수자인아파트 앞(4811 , 1828) 데이터 전처리 진행 place_name 문자열 앞에 공백이 있는 행이 존재 →UPDATE place_list SET place_name = TRIM(BOTH '' FROM place_name); 중복 데이터는 각각의 넘버에 따라 대여소 이름을 수정 →ex)국회3문의 데이터를 각각의 넘버 297과 4580에 따라 국회3문1, 국회3문2로 수정.. 2023. 11. 21.
[성동1기 전Z전능 데이터 분석가] Day 26 SQL 실무 프로젝트에 앞서 진행한 데이터 정합성 분석(기술 담당자 역할로 진행) 프로젝트에 이용한 데이터셋 공공자전거 이용내역 공공자전거 고장 신고 내역 공공자전거 대여내역 공공자전거 대여소 정보 데이터셋의 칼럼명 수정 및 COUNT 함수를 이용한 데이터 정합성 분석 공공자전거 대여소 정보(총 COUNT: 2,749개) 테이블명: place_list 대여소번호: place_number 대여소명: place_name 소재지(자치구): address_district 소재지(상세주소): address_all 소재지(위도): address_lat 소재지(경도): address_long 설치시기: placed_at 설치형태(LCD 거치 개수): install_lcd 설치형태(QR 거치 개수): install_q.. 2023. 11. 21.
728x90