본문 바로가기
Data/[스파르타 내일배움캠프]

[TIL]본캠프 33일차

by MIN_JOON 2024. 6. 3.
  • 데이터의 종류
    • 수치형: 숫자를 이용해 표현할 수 있는 데이터(체중, 신장, 일 방문자 수)
    • 연속형: 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터(체중, 신장)
    • 이산형: 정수형 값만 취할 수 있는 데이터(일 방문자수)
    • 범주형: 가능한 범주 안의 값만을 취하는 데이터(Categorical_나라, 도시, 혈액형 등)
    • 이진형: 두개의 값만을 가지는 범주형 데이터의 특수 경우(예/아니오, 참/거짓)
    • 순서형: 값들 사이에 분명한 순위가 있는 데이터
  • 분산과 표준편차
    • 분산과 표준편차는 '데이터가 어떻게 존재하는가'를 나타내줌
    • 편차: 평균으로부터 얼마나 떨어져 있는지(하나의 값에서 평균을 뺀 값) → 편차의 합이 0이 나오는 문제 발생
    • 분산: 편차의 문제를 방지하기 위해 생성=편차 제곱합의 평균
    • 표준편차: 데이터가 얼마나 퍼져 있나?(분산에 제곱근을 씌워줌  → 제곱하면서 생긴 단위 문제를 원래대로 돌려주는 것)
  • 모집단과 표본
    • 모집단: 어떤 데이터 집합을 구성하는 전체 대상
    • 표본: 모집단 중 일부, 모집단의 부분집합(통계는 표본을 통해 모집단을 추정)
    • 표본분포: 표본이 분포(표본이 흩어져 있는 정도)
    • 표준오차: 표본의 표준편차=표본평균의 평균과 모평균의 차이
    • 중심극한 정리: 표본의 크기가 충분히 크다면 어떤 분포에서도 표본 평균이 정규분포를 따름
  • 정규분포
    • 좌우 대칭 형태의 분포를 가지며 평균치에서 그 확률이 가장 높음
    • 곡선은 각 확률값을 나타내며 모두 더하면 1
    • 평균 0, 분산 1을 가지는 경우 표준정규분포
  • 신뢰구간과 신뢰수준
    • 신뢰구간: 특정 범위 내에 값이 존재할 것으로 예측되는 영역
    • 신뢰수: 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 모수를 포함하게 되는지

머신러닝 강의도 시작!!!

통계도 오늘은 복습을 많이 했다...!

'Data > [스파르타 내일배움캠프]' 카테고리의 다른 글

[TIL]본캠프 35일차  (3) 2024.06.05
[TIL]본캠프 34일차  (2) 2024.06.04
[WIL]본캠프 7주차  (1) 2024.05.31
[TIL]본캠프 32일차  (1) 2024.05.31
[TIL]본캠프 31일차  (1) 2024.05.30