- SQL 실습
- IN/BETWEEN
- AND나 OR와 비슷한 기능으로 코드의 가독성을 위해 사용한다.
Ex) WHERE Country IN(’A’,’B’) = WHERE Country = ‘A’ OR Country = ‘B’ → 국가가 A나 B인 데이터만 가져올 것
BETWEEN ‘1996-07-01’ AND ‘1996-07-31’ → 1996년 7월 1일에서 1996년 7월 31일 사이의 데이터만 가져올 것
- AND나 OR와 비슷한 기능으로 코드의 가독성을 위해 사용한다.
- LIKE/NOT LIKE
- 특정 문자가 포함되거나 포함되지 않은 데이터만 불러오는 명령어
Ex) WHERE Unit LIKE ‘%box%’ → box라는 문자가 포함된 데이터만 가져올 것
- 특정 문자가 포함되거나 포함되지 않은 데이터만 불러오는 명령어
- IS NULL/IS NOT NULL: 비어있는 값이나 비어있지 않은 값을 가져오는 명령어
- CASE: 데이터를 특정한 기준에 따라 카테고리를 분류할 떄 쓰는 기능(IF문과 동일한 기능)
- CASE문
SELECT * ,CASE WHEN Price >= 50 THEN '고가' ELSE '보통' END price_category FROM Products
→가격이 50 이상인 것은 '고가', 그 이하인 것은 '보통'으로 분류하여 새로운 필드 price_category로 추가
- CASE문
- JOIN: 테이블 간의 관계로 데이터를 붙여서 보는 명령어
- SELECT * FROM OrderDetails INNER JOIN Orders ON OrderDetails.OrderID = Orders.OrderID
→OrderID를 기준으로 OrderDetails 테이블과 Orders 테이블을 연결
- SELECT * FROM OrderDetails INNER JOIN Orders ON OrderDetails.OrderID = Orders.OrderID
- A/B테스트
- 사람들의 응답과 행동은 다르며 여러 문제에서 인과관계의 파악은 어렵다.
- 기존 제품 또는 기능을 보여주는 통제그룹과 새로운 버전을 보여주는 실험그룹으로 나누어 다양한 변경 사항을 테스트한다.
- 사용자를 랜덤하게 나누어 A/B테스트를 진행한다.
- 실험을 얼마나 해야하는가는 통계적 접근이 필요하다.
- 샘플링: 일부만 뽑아 분석을 진행하여 이를 바탕으로 전체를 추정한다.
- 정규분포: 자연 현상이나 여러 통계적 데이터에서 보여지는 분포패턴으로 평균을 중심으로 몰려있으며 멀어질수록 빈도가 줄어든다.
- 평균±1SD(표준편차) 범위 안에 약 70% 데이터가 들어간다.
- 평균±2SD(표준편차) 범위 안에 약 95% 데이터가 들어간다.
- 즉, 표준편차 2배 이상 떨어져 있다면 전체의 2.5% 범위 내에 들어가는 것이다.
- 표준편차는 평균값을 기점으로 데이터가 어느정도 멀리까지 위치하는지를 보여준다.
- 통계적 추정: 정규분포의 특성을 활용해 정규분포의 특성을 따르는 테스트의 결과 예측이 가능하다.
'Data > [SeSAC 성동1기 전Z전능 데이터 분석가]' 카테고리의 다른 글
[성동1기 전Z전능 데이터 분석가] Day 25 (1) | 2023.11.18 |
---|---|
[성동1기 전Z전능 데이터 분석가] Day 24 (0) | 2023.11.16 |
[성동1기 전Z전능 데이터 분석가] Day 22 (0) | 2023.11.14 |
[성동1기 전Z전능 데이터 분석가] Day 21 (0) | 2023.11.13 |
[성동1기 전Z전능 데이터 분석가] Day 20 (0) | 2023.11.13 |