728x90 Data163 [TIL]본캠프 77일차 & 78일차 최종 프로젝트 중간 발표 기간Robust Scaling데이터의 중앙값을 뺀 다음, 사분위수 범위로 나누어 스케일링 하는 것이상치에 덜 민감한 스케일링을 할 때 유용변환 값 = {해당 값 - 중앙값(Median)} / IQR서로 다른 특성 간에 일관된 스케일을 유지하여 알고리즘이 각 특성을 공정하게 처리할 수 있도록 함Log Transformation로그 변환을 통해 왜도와 첨도를 가진 변수를 정규분포에 가깝게 만들어줌작은 수는 크게, 큰 수는 작게 변환정규성 검정(Normality Test)데이터셋의 분포가 정규 분포를 따르는지 검정하는 것여러 검정법들이 데이터의 정규 분포를 가정하고 수행되기 때문에, 데이터 자체의 정규성을 확인하는 검정과정Shaprio-Wilks Test : 표본 수가 2000 미만인.. 2024. 8. 6. [WIL]본캠프 16주차 일주일 동안 뭐했지?최종프로젝트 기획 수정 및 진행데이터 EDA 진행 및 보고서 작성신규 구매자 클러스터링 진행FEELINGS🧐 최종 프로젝트의 방향성이 잡히고 어느 정도 분석도 마무리해서 계속 더 해볼만한 것들을 추가하고 있는 중. 계속해서 생각하고 팀원들이랑 이야기하는 과정이 힘들기도 한데 프로젝트가 잘 진행되고 있는 것 같아서 뿌듯하다.FINDINGS🔎 프로젝트를 진행하면서 왜?를 항상 다시 생각할 것...!!결국 기업 입장에서 요구하는 것은 매출을 올리기 위함일 수 있음 FUTURE✨ 중간 발표 전까지 할 수 있는 것들을 최대한 하면서 부족한 부분을 계속 채워나가야할 듯...!! 2024. 8. 2. [TIL]본캠프 76일차 신규 구매자들의 클러스터링 진행(최종 프로젝트)클러스터링을 위해 한 고객 당 특성으로 이루어진 테이블로 전처리전처리를 통해 생성된 테이블로 클러스터링 진행클러스터 수 : 4개, 주성분 수 : 2개#2023년 기준으로 고객별 특성 테이블 생성customer_clustering = new_2023.copy()customer_clustering['return_status'] = customer_clustering['return_status'].fillna(0)customer_clustering['return_status'] = np.where(customer_clustering['return_status'] == 0,0,1)customer_clustering['order_date'] = customer_clu.. 2024. 8. 2. [TIL]본캠프 75일차 Ad-Hoc 분석필요에 따라 임시로 데이터를 분석하는 것비구조적: 데이터를 미리 정의할 필요없이 활용 가능즉각적인 요구: 긴급 문제 해결 및 특별 질문에 활용유연성: 유연한 데이터 접근과 빠른 분석일회성: 대부분 결과물을 재사용하지 않는 일회성 작업Carrying Capacity(한계 수용력)프로덕트가 최종적으로 달성할 수 있는 유저 수이를 통해 현재 상황에서 성장의 한계점을 유추할 수 있음새로운 프로덕트 및 서비스를 통해 CC를 늘려나갈 필요가 있음Paid Marketing을 통해 CC에 도달하는 성장 속도를 빠르게 만들 수 있음첫 방문 유저수/이탈율(%)과 같은 식을 통해 계산할 수 있음EX) 첫 방문 수가 10,000명이고, 이탈률이 1%일 경우 한계 수용력은 100만으로 확인최종 프로젝 문제 정의.. 2024. 8. 1. 이전 1 2 3 4 5 6 ··· 41 다음 728x90