본문 바로가기
Data/[SeSAC 성동1기 전Z전능 데이터 분석가]

[성동1기 전Z전능 데이터 분석가] Day 23

by MIN_JOON 2023. 11. 15.
  • SQL 실습
  • IN/BETWEEN
    • AND나 OR와 비슷한 기능으로 코드의 가독성을 위해 사용한다.
      Ex) WHERE Country IN(’A’,’B’) = WHERE Country = ‘A’ OR Country = ‘B’ → 국가가 A나 B인 데이터만 가져올 것
              BETWEEN ‘1996-07-01’ AND ‘1996-07-31’ → 1996년 7월 1일에서 1996년 7월 31일 사이의 데이터만 가져올 것
  • LIKE/NOT LIKE
    • 특정 문자가 포함되거나 포함되지 않은 데이터만 불러오는 명령어
      Ex) WHERE Unit LIKE ‘%box%’ → box라는 문자가 포함된 데이터만 가져올 것
  • IS NULL/IS NOT NULL: 비어있는 값이나 비어있지 않은 값을 가져오는 명령어
  • CASE: 데이터를 특정한 기준에 따라 카테고리를 분류할 떄 쓰는 기능(IF문과 동일한 기능)
    • CASE문
      SELECT * ,CASE WHEN Price >= 50 THEN '고가' ELSE '보통' END price_category FROM Products
      →가격이 50 이상인 것은 '고가', 그 이하인 것은 '보통'으로 분류하여 새로운 필드 price_category로 추가
  • JOIN: 테이블 간의 관계로 데이터를 붙여서 보는 명령어
    • SELECT * FROM OrderDetails INNER JOIN Orders ON OrderDetails.OrderID = Orders.OrderID
      →OrderID를 기준으로 OrderDetails 테이블과 Orders 테이블을 연결

  • A/B테스트
    • 사람들의 응답과 행동은 다르며 여러 문제에서 인과관계의 파악은 어렵다.
    • 기존 제품 또는 기능을 보여주는 통제그룹과 새로운 버전을 보여주는 실험그룹으로 나누어 다양한 변경 사항을 테스트한다.
    • 사용자를 랜덤하게 나누어 A/B테스트를 진행한다.
    • 실험을 얼마나 해야하는가는 통계적 접근이 필요하다.
  • 샘플링: 일부만 뽑아 분석을 진행하여 이를 바탕으로 전체를 추정한다.
  • 정규분포: 자연 현상이나 여러 통계적 데이터에서 보여지는 분포패턴으로 평균을 중심으로 몰려있으며 멀어질수록 빈도가 줄어든다.
    • 평균±1SD(표준편차) 범위 안에 약 70% 데이터가 들어간다.
    • 평균±2SD(표준편차) 범위 안에 약 95% 데이터가 들어간다.
    • 즉, 표준편차 2배 이상 떨어져 있다면 전체의 2.5% 범위 내에 들어가는 것이다.
    • 표준편차는 평균값을 기점으로 데이터가 어느정도 멀리까지 위치하는지를 보여준다.
  • 통계적 추정: 정규분포의 특성을 활용해 정규분포의 특성을 따르는 테스트의 결과 예측이 가능하다.