728x90 데이터분석123 [TIL]본캠프 44일차(심화 프로젝트 3일차) 주성분 분석(PCA)기존 데이터들 중 주성분이 될 수 있는 컬럼들을 변환하여 주성분을 추출해내는 것(데이터 바뀜)위와 같은 이유로 원래의 컬럼의 데이터 원본이 중요하다면 PCA 진행시 제외할 것주성분: 전체 데이터의 분산을 가장 잘 설명해주는 것하나의 변수는 하나의 차원을 의미하기 때문에 주성분 분석을 통해 차원 축소를 진행할 수 있음프로젝트 내의 PCA 진행 및 클러스터링# 엘보우 방식 통해 클러스터 개수 계산sse = []scaler = StandardScaler()rfm_scaled = np.log(rfm[['recency','frequency','monetary']])rfm_scaled = scaler.fit_transform(rfm_scaled)for k in range(1, 11): km.. 2024. 6. 19. [TIL]본캠프 43일차(심화 프로젝트 2일차) 파이썬을 이용한 RFM 분석Recency: 얼마나 최근에 구매를 했는가Frequency: 얼마나 자주 구매를 했는가Monetary: 총 얼마를 구매했는가#RFM 계산snapshot_date = main_data['order_purchase_timestamp'].max() + dt.timedelta(days=1)rfm = main_data.groupby('customer_id',as_index=False).agg({'order_purchase_timestamp': lambda x: (snapshot_date - x.max()).days, 'order_id': 'count', .. 2024. 6. 18. [TIL]본캠프 42일차(심화 프로젝트 1일차) 프로젝트 데이터 소개브라질 고객의 커머스 데이터데이터 출처: https://www.kaggle.com/datasets/quangvinhhuynh/marketing-and-retail-analyst-e-comerce데이터 살펴보기 및 EDA 시작#라이브러리 임포트import pandas as pdimport numpy as npimport matplotlib as pltimport seaborn as sns#csv파일 로드customers = pd.read_csv('/content/drive/MyDrive/내배캠 심화 프로젝트/customers.csv')capstone_data_cleaned = pd.read_csv('/content/drive/MyDrive/내배캠 심화 .. 2024. 6. 17. [WIL]본캠프 9주차 일주일 동안 뭐했지?머신러닝 개인과제SQL 코드카타 진행머신러닝 추가세션 복습통계학 마무리 세션 복습머신러닝 심화 강의 수강FEELINGS🧐 머신러닝 학습주차가 개인과제를 끝으로 마무리 됐는데 재미도 있고 나중에 써볼 수 있을 정도로 알게 된 것 같아서 뿌듯하다. 부스트 클래스 진행하면서 딥러닝을 조금 배워봤는데 이번 학습 주차를 통해서 이해도가 더 올라간 느낌!!!!FINDINGS🔎 머신러닝과 통계를 묶어서 생각할 것!!!정답이 있는 데이터를 활용하는 지도학습과 정답이 없는 데이터를 활용하는 비지도학습. 분류 모델은 로지스틱 회귀, 랜덤 포레스트, KNN 등이 존재, 회귀 모델은 선형 회귀, 라소(Lasso) 회귀, Elastic Net 등이 존재. 딥러닝은 인간의 신경세포를 모방한 모델 FUTUR.. 2024. 6. 14. 이전 1 ··· 9 10 11 12 13 14 15 ··· 31 다음 728x90