- LAG함수, LEAD함수
- 두 함수 모두 2개의 행간의 차이를 구할 때 사용됨
- LAG 함수: 현재 행 이전의 행을 가져올 때 사용
- LEAD 함수: 현재 행 이후의 행을 가져올 때 사용
#사용 예시
SELECT LAG(Column1) OVER(PARTITION BY Column1 ORDER BY Column1)
FROM table1
- 이상값(Outlier)
- 의도치 않게 잘못 입력된 값 or 분석 목적에 부합되지 않아 제거해야 하는 경우 or 의도하지 않았지만 분석에 포함해야하는 경우
- 이상값을 꼭 제거해야하는 것은 아니기에 분석의 목적이나 종류에 따라 적절한 판단 필요
- 이상값 사용 분야: 사기 탐지, 의료, 네트워크 침입탑지 등 부정 사용 방지
- 이상값 판단 방법
- ESD(Extreme Studentized Deviation): 평균으로부터 3표준편차만큼 떨어진 값을 이상치로 인식(전체의 0.3%)
- 사분위수: 측정값을 최솟값에서 최댓값까지 4등분했을 때 각 위치에 해당하는 값(일반적으로 1.5분위수를 벗어나면 이상치)
- IQR(Interquartile Range): 사분범위라고 부르며 1분위 수(Q1)~3분위 수(Q3)까지의 범위
- 중앙값(Median): 2분위 수
- Q1-1.5*IQR(하한 최솟값)보다 작거나 Q3+1.5*IQR(상한 최댓값)보다 큰 값을 이상치로 간주
- 이상치는 박스플롯으로 식별
- 통계
- 분석하고자 하는 특정집단을 대상으로 수행한 조사나 실험을 통해 얻은 자료 및 요약된 형태의 표현
- 나열되어있는 정보에서 분포의 특징이나 반복되는 것을 찾아내는 방법
- 모집단: 유용한 정보를 이끌어내려는 대상(추출단위 혹은 원소로 구성)
- 통계 자료 획득 방법
- 전수조사(Census): 대상 집단 '모두'를 조사하는 것(많은 비용과 시간 소모, 특수한 경우 시행)
- 표본조사(Sample): 모집단을 대표하는 표본을 추출하여 조사(표본의 대표성이 신뢰 가능한 경우)
- 표본: 조사하는 모집단의 일부
- 모수(parameter): 모집단에 대해 알고자 하는 값(모집단의 특성치)
- 통계량(statistics): 표본의 값들을 숫자 하나로 나타내는 특징값(데이터를 요약한 수치)
- 표본 추출 방법
- 단순 랜덤 추출법(Simple Random Sampling): N개의 원소를 임의로 선택해 표본으로 추출(예시: 사다리 타기, 제비 뽑기)
- 계통 추출법(Systemic Sampling): 모집단의 모든 원소들에게 일련번호를 부여하고 N개의 구간으로 나눈 후 첫 구간에서 임의로 하나를 선택한 후에 K개씩 띄어서 표본 추출
- 집락(군집) 추출법(Cluster Sampling): 모집단이 몇 개의 집락(cluster)이 결합된 형태로 구성돼 있고, 각 집단에서 원소들에게 일련번호를 부여할 수 있는 경우 이용
→ 집락끼리 동질적인 부분이 있으면 일부 집락을 랜덤 선택하고 각 집락에서 표본 추출 - 층화 추출법(Stratified Sampling): 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법
- 먼저 몇 개의 층(stratum)으로 나눈 후, 각 층에서 랜덤으로 표본 추출
- 비례 층화 추출법: 전체 데이터 분포를 반영하여 각 집락별 데이터 추출
- 불비례 층화 추출법: 전체 데이터의 분포를 반영하지 않고 각 집락에서 원하는 개수의 데이터를 추출
첫 주가 슬슬 끝이 보이면서 미니 프로젝트도 끝이났다:)
결과도 잘 나온 것 같아서 만족스러운 하루
근데 결국 네이버 부스트클래스는 추가로 됐고 이걸 다 할 수 있을지 걱정된다...
그래도 뭐 해봐야지~~~~
'Data > [스파르타 내일배움캠프]' 카테고리의 다른 글
[WIL]본캠프 1주차 (3) | 2024.04.19 |
---|---|
[TIL]본캠프 5일차 (4) | 2024.04.19 |
[TIL]본캠프 3일차 (2) | 2024.04.17 |
[TIL]본캠프 2일차 (2) | 2024.04.16 |
[TIL]본캠프 1일차 (4) | 2024.04.15 |