본문 바로가기
Data/[SeSAC 성동1기 전Z전능 데이터 분석가]

[성동1기 전Z전능 데이터 분석가] Day 29

by MIN_JOON 2023. 11. 26.
  • 서울시 공공자전거(따릉이) 데이터를 이용한 EDA 프로젝트 마무리 및 발표
  • SQL과 구글 스프레드 시트, Looker Studio 등 시각화에 이용할 수 있는 것은 모두 이용해서 프로젝트를 진행하였다.
  • 지금까지 SQL을 배운 이후 가장 많은 쿼리를 짠 날이 아닐까 싶은데 덕분에 SQL은 많이 늘고 있는 것 같다. 또한 온라인으로 진행되는 날이다 보니 소통에 어려운 부분이 있기도 하고 비교적 짧은 시간에 진행하다보니 많이 어려운 느낌이 들기도 한다.

  • 성별, 연령별, 지역별 이용자 분포
    • 남성의 경우 20대와 30대가 비슷한 비율로 가장 많은 이용자 수를 보임
    • 여성의 경우 20대가 30대보다 조금 많은 비율의 이용자 수를 보임
    • 지역별로는 남성과 여성 모두 동일하게 강서구, 송파구, 영등포구에서 많은 이용자 수를 보임
  • 강서구와 송파구
    • 강서구
      →마곡동에 회사가 가장 많이 분포하고 있음, 업종의 종류가 따릉이 이용자에 영향을 미치는지 확인이 필요하다고 생각한다.
  • 강서구 히트맵
    • 송파구
      →석촌호수나 올림픽공원과 같은 나들이 장소가 많고 이로 인해 20~30대 연령층의 사용이 많다.

송파구 히트맵

  • 정기권 이용 비율의 비교
    • 회사가 많은 강남구, 영등포구, 종로구, 중구에서 정기권 이용 비율이 전체의 78%정도로 높게 나타난다.

    • 다른 구들은 그렇다면 적을까?
      →다른 구들도 대부분 비슷하게 70~80%대로 나타난다.
      →정기권 이용 비율과 상관관계가 없는 것으로 보인다.
  •  따릉이는 어떤 조건에서 이용이 많을까?
    • 주말 vs 주중
      → 주중과 주말의 평균 이용시간과 이동거리에는 차이가 크지 않으나 주말이 더 많다.
    •  지역별+연령별 비교
      →활동성이 높은 20~30대가 가장 많이 이용하면서 한강공원이나 대학가 등이 존재하는 자치구에서 이동거리나 이용시간이 높게 나타난다.
    •  정기권과 일일권
      →평일에는 정기권과 일일권의 이용 데이터가 비슷하지만 주말에는 일일권이 월등히 높은 것으로 보인다. 이를 바탕으로 주말 정기권과 같은 신규 정기권 도입이 필요할 수도 있다.
      →평일과 주말 모두 비회원 일일권의 이용시간과 이동거리가 높다.
  •  지역별 대여소 수와 이용자 수 비교
    • 일반적으로 이용자 수가 많은 곳에 대여소 수도 많은 것으로 확인할 수 있다.
      지역별 대여소 수
      지역별 이용자 수
    • 지역별 대여소 수와 이용자 수의 상관관계도 명확한 것으로 보인다.
    • 강남구와 서초구 수는 다른 지역에 비해서 이용자 수는 적은데, 대여소 수는 많다.
      →자치구별 평균 담당 면적: 반경 240m / 강남구 평균 : 100m / 서초구 : 170m
      →담당 면적에 비해 필요 이상으로 많기 때문에 대여소의 필요성을 재검토할 필요가 있어 보인다.
    • 그렇다면 거치대 수가 적어서 대여소 수가 많은 것일까?
      구별 평균 거치대 수보다 살짝 많은 정도인 것을 확인할 수 있다.
    •  이용자들이 대여보다 반납을 많이하여 대여소 수가 많은 것일까?
      →강남구와 서초구 모두 오히려 반납이 더 적은 것으로 보인다. 따라서 맞지 않는 가설로 보인다.
    • 구별 거치대 이용량은?(구별 평균 거치대 1대당 이용량: 76.02 // 강서구 평균: 233.91)
      →강서구에서 1대당 이용량이 다른 곳에 비해 굉장히 높았으며 따라서 거치대수를 늘릴 필요가 있어보인다.
      →강서구 또한 대여소 하나당 담당 면적이 반경 110m로 평균보다 작아 대여소 수는 충분한 것으로 보이기 때문에 거치대를 추가할 필요가 있는 것으로 보인다.
  • 이용량과 자전거 고장의 상관관계 분석 
    • 대여횟수와 고장신고 건수의 상관관계
      →피어슨 상관계수가 평균 0.057로 상관관계가 매우 낮은 것으로 보인다. 
    • 그렇다면 이용시간과 이용거리에 비례하여 고장이 늘어나는 것일까?
      →이또한 상관계수가 각각 평균 0.045, 0.049로 상관관계가 매우 낮은 것으로 보인다.
    •  이용거리, 이용시간, 대여횟수가 많다고 따릉이가 고장나는 것은 아니라는 결론을 내릴 수 있다.