- MySQL 문자열 길이 출력 함수
- length(): byte길이를 가져오는 함수
- char_length(): byte 수를 계산하지 않고 단순히 몇 개의 문자가 있는지 가져오는 함수
- Python 숫자 판별
- str.isdigit('판단하고자 하는 문자열') 혹은 '판단하고자 하는 문자열'.isdigit()
- 판단하고자 하는 문자열이 모두 숫자면 True, 아니라면 False를 반환
- 음수와 소수점을 판단하지 못하기 때문에 포함되면 False를 반환
- 데이터 마트
- 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스
- 시간 및 공간적인 효율성 증대
- 데이터 전처리
- 데이터 정제(결측치 및 이상치 제거)+분석 변수 처리(변수 선택, 파생변수 생성 등)
- 요약 변수: 원래 데이터로부터 기본적인 통계 자료를 추출한 데이터 마트에서 가장 기본적인 변수(합계, 평균, 횟수 등)
- 파생 변수: 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수(논리적 타당성 필수)
- 탐색적 데이터 분석(EDA)
- 데이터를 본격 분석하기 전에 데이터의 대략적인 특성을 파악하고 다각도로 접근하는 것
- 데이터 구조 파악, 데이터 기초 통계량 확인 등
- 결측값(Missing Data)
- 존재하지 않는 데이터를 의미
- 결측값 처리를 위해 시간을 많이 쓰는 것은 비효율적이기 때문에 일반적으로 결측값은 제외하고 처리
- 표현법: NA(Not Available), 공백, Null, 99999999, -1 등
- 결측값 처리를 위한 패키지: Amelia, DMwR2 등
- is.na()를 통해 결측값 여부 확인 가능
- 결측값 대치 방법
- 단순 대치법(Single Imputation): 결측값이 존재하는 데이터를 삭제하는 방법, 결측값이 많을 경우 데이터 손실 우려
- 평균 대치법(Mean Imputation): 데이터의 평균으로 결측값을 대치하는 방법
- 조건부 평균 대치법: 실제 값을 분석 후 회귀분석을 활용하는 대치방법
- 비조건부 평균 대치법: 데이터 평균값으로 결측값을 대치
- 단순 확률 대치법: 평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완하고자 고안(K-Nearest Neighbor)
- 다중 대치법: 여러 번의 대치를 통해 n개의 가상적 완전 자료를 만드는 방법
- 대치(Imputation Step)
- 분석(Analysis Step)
- 결합(Combination Step)
온보딩 주간 미니 프로젝트의 끝이 보인다.
생각보다 금방금방 진행되기도 했고 결과물도 나름 만족스런 프로젝트인 듯
내일은 할 일 호다닥 끝내고 ADsP 공부를 할 수 있길 ㅠ
'Data > [스파르타 내일배움캠프]' 카테고리의 다른 글
[TIL]본캠프 5일차 (4) | 2024.04.19 |
---|---|
[TIL]본캠프 4일차 (3) | 2024.04.18 |
[TIL]본캠프 2일차 (2) | 2024.04.16 |
[TIL]본캠프 1일차 (4) | 2024.04.15 |
[WIL]사전캠프 3주차 (0) | 2024.04.12 |