본문 바로가기
Data/[스파르타 내일배움캠프]

[TIL]본캠프 3일차

by MIN_JOON 2024. 4. 17.
  • MySQL 문자열 길이 출력 함수
    • length(): byte길이를 가져오는 함수
    • char_length(): byte 수를 계산하지 않고 단순히 몇 개의 문자가 있는지 가져오는 함수
  • Python 숫자 판별
    • str.isdigit('판단하고자 하는 문자열') 혹은 '판단하고자 하는 문자열'.isdigit()
    • 판단하고자 하는 문자열이 모두 숫자면 True, 아니라면 False를 반환
    • 음수와 소수점을 판단하지 못하기 때문에 포함되면 False를 반환
  • 데이터 마트
    • 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스
    • 시간 및 공간적인 효율성 증대
  • 데이터 전처리
    • 데이터 정제(결측치 및 이상치 제거)+분석 변수 처리(변수 선택, 파생변수 생성 등)
    • 요약 변수: 원래 데이터로부터 기본적인 통계 자료를 추출한 데이터 마트에서 가장 기본적인 변수(합계, 평균, 횟수 등)
    • 파생 변수: 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수(논리적 타당성 필수)
  • 탐색적 데이터 분석(EDA)
    • 데이터를 본격 분석하기 전에 데이터의 대략적인 특성을 파악하고 다각도로 접근하는 것
    • 데이터 구조 파악, 데이터 기초 통계량 확인 등
  • 결측값(Missing Data)
    • 존재하지 않는 데이터를 의미
    • 결측값 처리를 위해 시간을 많이 쓰는 것은 비효율적이기 때문에 일반적으로 결측값은 제외하고 처리
    • 표현법: NA(Not Available), 공백, Null, 99999999, -1 등
    • 결측값 처리를 위한 패키지: Amelia, DMwR2 등
    • is.na()를 통해 결측값 여부 확인 가능
  • 결측값 대치 방법
    • 단순 대치법(Single Imputation): 결측값이 존재하는 데이터를 삭제하는 방법, 결측값이 많을 경우 데이터 손실 우려
    • 평균 대치법(Mean Imputation): 데이터의 평균으로 결측값을 대치하는 방법
      1. 조건부 평균 대치법: 실제 값을 분석 후 회귀분석을 활용하는 대치방법
      2. 비조건부 평균 대치법: 데이터 평균값으로 결측값을 대치
    • 단순 확률 대치법: 평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완하고자 고안(K-Nearest Neighbor)
    • 다중 대치법: 여러 번의 대치를 통해 n개의 가상적 완전 자료를 만드는 방법
      1. 대치(Imputation Step)
      2. 분석(Analysis Step)
      3. 결합(Combination Step)

온보딩 주간 미니 프로젝트의 끝이 보인다.

생각보다 금방금방 진행되기도 했고 결과물도 나름 만족스런 프로젝트인 듯

내일은 할 일 호다닥 끝내고 ADsP 공부를 할 수 있길 ㅠ

'Data > [스파르타 내일배움캠프]' 카테고리의 다른 글

[TIL]본캠프 5일차  (4) 2024.04.19
[TIL]본캠프 4일차  (3) 2024.04.18
[TIL]본캠프 2일차  (2) 2024.04.16
[TIL]본캠프 1일차  (4) 2024.04.15
[WIL]사전캠프 3주차  (0) 2024.04.12