SQL과 구글 스프레드 시트, Looker Studio 등 시각화에 이용할 수 있는 것은 모두 이용해서 프로젝트를 진행하였다.
지금까지 SQL을 배운 이후 가장 많은 쿼리를 짠 날이 아닐까 싶은데 덕분에 SQL은 많이 늘고 있는 것 같다. 또한 온라인으로 진행되는 날이다 보니 소통에 어려운 부분이 있기도 하고 비교적 짧은 시간에 진행하다보니 많이 어려운 느낌이 들기도 한다.
성별, 연령별, 지역별 이용자 분포
남성의 경우 20대와 30대가 비슷한 비율로 가장 많은 이용자 수를 보임
여성의 경우 20대가 30대보다 조금 많은 비율의 이용자 수를 보임
지역별로는 남성과 여성 모두 동일하게 강서구, 송파구, 영등포구에서 많은 이용자 수를 보임
강서구와 송파구
강서구 →마곡동에 회사가 가장 많이 분포하고 있음, 업종의 종류가 따릉이 이용자에 영향을 미치는지 확인이 필요하다고 생각한다.
강서구 히트맵
송파구 →석촌호수나 올림픽공원과 같은 나들이 장소가 많고 이로 인해 20~30대 연령층의 사용이 많다.
송파구 히트맵
정기권 이용 비율의 비교
회사가 많은 강남구, 영등포구, 종로구, 중구에서 정기권 이용 비율이 전체의 78%정도로 높게 나타난다.
다른 구들은 그렇다면 적을까? →다른 구들도 대부분 비슷하게 70~80%대로 나타난다. →정기권 이용 비율과 상관관계가 없는 것으로 보인다.
따릉이는 어떤 조건에서 이용이 많을까?
주말 vs 주중 → 주중과 주말의 평균 이용시간과 이동거리에는 차이가 크지 않으나 주말이 더 많다.
지역별+연령별 비교 →활동성이 높은 20~30대가 가장 많이 이용하면서 한강공원이나 대학가 등이 존재하는 자치구에서 이동거리나 이용시간이 높게 나타난다.
정기권과 일일권 →평일에는 정기권과 일일권의 이용 데이터가 비슷하지만 주말에는 일일권이 월등히 높은 것으로 보인다. 이를 바탕으로 주말 정기권과 같은 신규 정기권 도입이 필요할 수도 있다. →평일과 주말 모두 비회원 일일권의 이용시간과 이동거리가 높다.
지역별 대여소 수와 이용자 수 비교
일반적으로 이용자 수가 많은 곳에 대여소 수도 많은 것으로 확인할 수 있다. 지역별 대여소 수지역별 이용자 수
지역별 대여소 수와 이용자 수의 상관관계도 명확한 것으로 보인다.
강남구와 서초구 수는 다른 지역에 비해서 이용자 수는 적은데, 대여소 수는 많다. →자치구별 평균 담당 면적: 반경 240m / 강남구 평균 : 100m / 서초구 : 170m →담당 면적에 비해 필요 이상으로 많기 때문에 대여소의 필요성을 재검토할 필요가 있어 보인다.
그렇다면 거치대 수가 적어서 대여소 수가 많은 것일까? → 구별 평균 거치대 수보다 살짝 많은 정도인 것을 확인할 수 있다.
이용자들이 대여보다 반납을 많이하여 대여소 수가 많은 것일까? →강남구와 서초구 모두 오히려 반납이 더 적은 것으로 보인다. 따라서 맞지 않는 가설로 보인다.
구별 거치대 이용량은?(구별 평균 거치대 1대당 이용량: 76.02 // 강서구 평균: 233.91) →강서구에서 1대당 이용량이 다른 곳에 비해 굉장히 높았으며 따라서 거치대수를 늘릴 필요가 있어보인다. →강서구 또한 대여소 하나당 담당 면적이 반경 110m로 평균보다 작아 대여소 수는 충분한 것으로 보이기 때문에 거치대를 추가할 필요가 있는 것으로 보인다.
이용량과 자전거 고장의 상관관계 분석
대여횟수와 고장신고 건수의 상관관계 →피어슨 상관계수가 평균 0.057로 상관관계가 매우 낮은 것으로 보인다.
그렇다면 이용시간과 이용거리에 비례하여 고장이 늘어나는 것일까? →이또한 상관계수가 각각 평균 0.045, 0.049로 상관관계가 매우 낮은 것으로 보인다.
이용거리, 이용시간, 대여횟수가 많다고 따릉이가 고장나는 것은 아니라는 결론을 내릴 수 있다.