본문 바로가기
728x90

데이터분석123

[TIL]본캠프 47일차 판다스 시계열 데이터 다루기datetime now현재 시간을 출력할 때 사용timedelda현재 시간으로부터 지정한 만큼이 지난 시각을 출력timedelta(지정해주는 값;days,hours 등등)strftime시계열 데이터의 형식 설정%Y-%m-%d와 같은 형식 지정(시간이 포함되는 경우도 가능_%H:%M:%S)#현재 시간 출력from datetime import datetimenow = datetime.now()print(now)#하루 뒤의 시각 출력from datetime import datetimefrom datetime import timedeltanow = datetime.now()tomorrow = now + timedelta(days=1)print(tomorrow)#하루 전의 시각 출력fr.. 2024. 6. 24.
[WIL]본캠프 10주차 일주일 동안 뭐했지?심화 프로젝트 진행FEELINGS🧐 클러스터링 진짜 너무 어렵다....튜터님의 가이드가 확실해서 주제를 선택한 이유도 있었는데 가이드가 그만큼 확실하지 않으면 시작도 못할 것 같아서 였다고....😭그래도 어찌저찌 한 주가 또 흘러갔다.....주제가 어렵다보니 집중력이 낮아진 것 같아서 다음주엔 다시 또 가다듬고 시작해야겠다.FINDINGS🔎 클러스터링을 진행할 때, 클러스터를 설명하려는 변수(컬럼)의 수가 클러스터의 갯수의 두 배 이상으로 설정해줄 것. 3개의 변수로 3개의 군집으로 나누는 것은 그냥 GROUPBY 하는 것이랑 다를게 없다...!또 실루엣 계수가 0.5정도면 대부분 타당한 것으로 인정되며 0.7이면 군집화가 아주 잘 이루어진 것이라고 할 수 있지만, 후자는 조작된.. 2024. 6. 21.
[TIL]본캠프 46일차(심화 프로젝트 5일차) 군집별 특성 분석#클러스터별 고객수sns.barplot(data = clustered_data.groupby('cluster',as_index=False).agg(customer_count=('customer_id','nunique')), x = 'cluster' , y = 'customer_count', color = 'gray');#배송에 걸리는 기간 추가 clustered_data['purchase_to_delivered'] = clustered_data['order_delivered_timestamp'] - clustered_data['order_purchase_timestamp']#구매 요일 추가clustered_data['purchase_weekday'] = clustered_data['ord.. 2024. 6. 21.
[TIL]본캠프 45일차(심화 프로젝트 4일차) 전날에서 RFM 빼고 갈아엎기사용 변수→범주형: product_category_name, payment_type, customer_city, customer_state, customer_region→연속형: price, shpping_charges, product_volume범주형 변수는 label encoding 시행, 연속형 변수는 왜도 보완을 위해 로그 변환 시행변수들의 정규화 후 PCA 시행(n_components = 2)Elbow method를 이용해 클러스터 갯수 설정클러스터 갯수 5개로 군집화 시행 후 실루엣 계수 확인추후 클러스터링 된 데이터를 통해 군집 분석 진행#PCA(주성분 분석) n = 2pca_main = main_data.copy()le = LabelEncoder()pca_mai.. 2024. 6. 20.
728x90