- 데이터의 종류
- 수치형: 숫자를 이용해 표현할 수 있는 데이터(체중, 신장, 일 방문자 수)
- 연속형: 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터(체중, 신장)
- 이산형: 정수형 값만 취할 수 있는 데이터(일 방문자수)
- 범주형: 가능한 범주 안의 값만을 취하는 데이터(Categorical_나라, 도시, 혈액형 등)
- 이진형: 두개의 값만을 가지는 범주형 데이터의 특수 경우(예/아니오, 참/거짓)
- 순서형: 값들 사이에 분명한 순위가 있는 데이터
- 분산과 표준편차
- 분산과 표준편차는 '데이터가 어떻게 존재하는가'를 나타내줌
- 편차: 평균으로부터 얼마나 떨어져 있는지(하나의 값에서 평균을 뺀 값) → 편차의 합이 0이 나오는 문제 발생
- 분산: 편차의 문제를 방지하기 위해 생성=편차 제곱합의 평균
- 표준편차: 데이터가 얼마나 퍼져 있나?(분산에 제곱근을 씌워줌 → 제곱하면서 생긴 단위 문제를 원래대로 돌려주는 것)
- 모집단과 표본
- 모집단: 어떤 데이터 집합을 구성하는 전체 대상
- 표본: 모집단 중 일부, 모집단의 부분집합(통계는 표본을 통해 모집단을 추정)
- 표본분포: 표본이 분포(표본이 흩어져 있는 정도)
- 표준오차: 표본의 표준편차=표본평균의 평균과 모평균의 차이
- 중심극한 정리: 표본의 크기가 충분히 크다면 어떤 분포에서도 표본 평균이 정규분포를 따름
- 정규분포
- 좌우 대칭 형태의 분포를 가지며 평균치에서 그 확률이 가장 높음
- 곡선은 각 확률값을 나타내며 모두 더하면 1
- 평균 0, 분산 1을 가지는 경우 표준정규분포
- 신뢰구간과 신뢰수준
- 신뢰구간: 특정 범위 내에 값이 존재할 것으로 예측되는 영역
- 신뢰수: 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 모수를 포함하게 되는지
머신러닝 강의도 시작!!!
통계도 오늘은 복습을 많이 했다...!
'Data > [스파르타 내일배움캠프]' 카테고리의 다른 글
[TIL]본캠프 35일차 (3) | 2024.06.05 |
---|---|
[TIL]본캠프 34일차 (2) | 2024.06.04 |
[WIL]본캠프 7주차 (1) | 2024.05.31 |
[TIL]본캠프 32일차 (1) | 2024.05.31 |
[TIL]본캠프 31일차 (1) | 2024.05.30 |