본문 바로가기
728x90

데이터분석123

[TIL]본캠프 34일차 MySQL의 EXISTS서브쿼리가 하나 이상의 행을 반환하면 true, 그렇지 않다면 false를 반환하는 bool 연산자IN 연산자와 비슷한 용도로 사용 가능IN 연산자는 비교할 값을 직접 대입할 수 있지만 EXISTS 연산자는 서브쿼리만 사용 가능데이터 프로세스데이터 수집데이터 전처리: 이상치, 결측치, 인코딩, 스케일링 등EDA: 기술통계, 시각화모델링&평가배포선형회귀알려진 데이터를 통해 알 수 없는 데이터의 값을 분석하는 것Y=beta_0 + beta_1 * X  + errorbeta_0: 편향(Bias)beta_1: 회귀 계수error: 오차, 모델이 설명하지 못하는 변동성회귀분석의 평가지표MSE(Mean Squared Error): (실제 데이터 - 예측 데이터)를 제곱하고 데이터만큼 나눈 것.. 2024. 6. 4.
[TIL]본캠프 33일차 데이터의 종류수치형: 숫자를 이용해 표현할 수 있는 데이터(체중, 신장, 일 방문자 수)연속형: 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터(체중, 신장)이산형: 정수형 값만 취할 수 있는 데이터(일 방문자수)범주형: 가능한 범주 안의 값만을 취하는 데이터(Categorical_나라, 도시, 혈액형 등)이진형: 두개의 값만을 가지는 범주형 데이터의 특수 경우(예/아니오, 참/거짓)순서형: 값들 사이에 분명한 순위가 있는 데이터분산과 표준편차분산과 표준편차는 '데이터가 어떻게 존재하는가'를 나타내줌편차: 평균으로부터 얼마나 떨어져 있는지(하나의 값에서 평균을 뺀 값) → 편차의 합이 0이 나오는 문제 발생분산: 편차의 문제를 방지하기 위해 생성=편차 제곱합의 평균표준편차: 데이터가 얼마나 퍼져 있나.. 2024. 6. 3.
[WIL]본캠프 7주차 일주일 동안 뭐했지?통계학 강의 수강SQL 코드카타 진행부스트 클래스 마무리 과제 제출SQL 챌린지 세션 진행파이썬 복습FEELINGS🧐 본격적으로 통계학을 배우는 첫 주였다. 통계는 들어도 들어도 어려웠는데 이번 주도 역시나 어렵다😭ADsP 다시 공부하는 느낌으로 차근차근 듣고 있지만 여러 번 복습하면서 확실하게 머릿속에 집어넣어야 할 것 같다. 통계를 어느 정도 안다고 할 수 있을 그날까지....FINDINGS🔎 t-test 검정이 만능인줄 알았는데 두 집단 간 차이 밖에 볼 수가 없다. 여러 집단에서 t-test를 반복 진행할 경우 신뢰수준에 문제가 생긴다는 걸 알게 됐다. 역시 무조건 좋은 건 없다. 세 개 이상의 여러 집단은 ANOVA로 테스트할 것!!!FUTURE✨통계는 계속해서 반복 복.. 2024. 5. 31.
[TIL]본캠프 32일차 리텐션(Retention)방문 후 재방문, 구매 후 재구매, 구매 후 로그인 등등고객의 어떤 행동을 리텐션으로 삼을 것인지는 서비스마다 차이가 존재리텐션을 정의할 때 그 행동이 비즈니스에서 중요하게 생각하는 고객의 핵심 행동인지 고려할 것!!리텐션의 종류클래식 리텐션, N-day 리텐션: 고객이 A 행동을 하고 N일차에 다시 A 행동을 했는지범위(Bracket/Range/Bounded) 리텐션: 기간을 기준으로 설정하여 리텐션을 정의(기간 내에 한번이라도 하면 리텐션으로)롤링(Rolling/On or After/Unbounded) 리텐션: 기준일 이후에 한 번이라도 A행동을 했다면 리텐션으로코호트 분석코호트: 공통적인 특성을 가진 사람들의 집단코호트 분석: 동질 집단이 시간에 따라 어떻게 변화하는가!!코.. 2024. 5. 31.
728x90