- SQL 실무 프로젝트의 데이터 중복 측정 및 데이터 전처리 진행+탐색적 데이터 분석(EDA)
- 중복 데이터: 반납대여소 이름은 1개인데 반납대여소 번호는 2개인 경우
- rent_detail
- 국회 3문 (297, 4580)
- 천왕이펜하우스5단지 앞 (1981, 2817)
- 한양수자인아파트 앞 (1828, 4811)
- place_list
- 한양수자인아파트 앞(4811 , 1828)
- rent_detail
- 데이터 전처리 진행
- place_name 문자열 앞에 공백이 있는 행이 존재
→UPDATE place_list SET place_name = TRIM(BOTH '' FROM place_name); - 중복 데이터는 각각의 넘버에 따라 대여소 이름을 수정
→ex)국회3문의 데이터를 각각의 넘버 297과 4580에 따라 국회3문1, 국회3문2로 수정 - 대여소번호가 대여소명에 포함되는 경우가 있어 "."를 구분자로 분리하여 수정
→UPDATE usage_detail SET place_name = SUBSTRING_INDEX(place_name,".",-1)
→UPDATE usage_detail SET place_name = TRIM(BOTH '' FROM place_name); - 공백과 'N'으로 설정되는 이상치는 모두 NULL값으로 대체
→UPDATE usage_detail SET momentum = NULL WHERE momentum = "N" or momentum = "";
- place_name 문자열 앞에 공백이 있는 행이 존재
- 간단한 가설 세우기
- 지역, 대여소별 이용건수를 바탕으로 거치대 설치수, 이용 횟수가 비례하는지 확인
- 대여소를 기준으로 연령대별 특이점이 있는 시간대나 지역 확인
- 이용량이나 지역에 비례해서 자전거 고장이 많은지 확인
- 주말/주중을 비교해서 이용거리 및 시간 비교
'Data > [SeSAC 성동1기 전Z전능 데이터 분석가]' 카테고리의 다른 글
[성동1기 전Z전능 데이터 분석가] Day 29 (1) | 2023.11.26 |
---|---|
[성동 1기 전Z전능 데이터 분석가] Day 28 (1) | 2023.11.23 |
[성동1기 전Z전능 데이터 분석가] Day 26 (0) | 2023.11.21 |
[성동1기 전Z전능 데이터 분석가] Day 25 (1) | 2023.11.18 |
[성동1기 전Z전능 데이터 분석가] Day 24 (0) | 2023.11.16 |