본문 바로가기
Data/[SeSAC 성동1기 전Z전능 데이터 분석가]

[성동1기 전Z전능 데이터 분석가] Day 27

by MIN_JOON 2023. 11. 21.
    • SQL 실무 프로젝트의 데이터 중복 측정 및 데이터 전처리 진행+탐색적 데이터 분석(EDA)
    • 중복 데이터:  반납대여소 이름은 1개인데 반납대여소 번호는 2개인 경우
      • rent_detail 
        1. 국회 3문 (297, 4580)
        2. 천왕이펜하우스5단지 앞 (1981, 2817)
        3. 한양수자인아파트 앞 (1828, 4811)
      • place_list
        1. 한양수자인아파트 앞(4811 , 1828)
    • 데이터 전처리 진행
      • place_name 문자열 앞에 공백이 있는 행이 존재
        →UPDATE place_list SET place_name = TRIM(BOTH '' FROM place_name);
      • 중복 데이터는 각각의 넘버에 따라 대여소 이름을 수정
        →ex)국회3문의 데이터를 각각의 넘버 297과 4580에 따라 국회3문1, 국회3문2로 수정
      • 대여소번호가 대여소명에 포함되는 경우가 있어 "."를 구분자로 분리하여 수정
        →UPDATE usage_detail SET place_name = SUBSTRING_INDEX(place_name,".",-1)
        →UPDATE usage_detail SET place_name = TRIM(BOTH '' FROM place_name);
      • 공백과 'N'으로 설정되는 이상치는 모두 NULL값으로 대체
        →UPDATE usage_detail SET momentum = NULL WHERE momentum = "N" or momentum = "";
    • 간단한 가설 세우기
      1. 지역, 대여소별 이용건수를 바탕으로 거치대 설치수, 이용 횟수가 비례하는지 확인
      2. 대여소를 기준으로 연령대별 특이점이 있는 시간대나 지역 확인
      3. 이용량이나 지역에 비례해서 자전거 고장이 많은지 확인
      4. 주말/주중을 비교해서 이용거리 및 시간 비교