728x90 Data/[스파르타 내일배움캠프]112 [TIL]본캠프 5일차 미니 프로젝트 피드백(타 팀 피드백 포함) 데이터 분석은 당연하지 않은 것을 검증하는게 더 도움이 될 가능성이 높음(긴가민가한 그레이 존을 먼저 검증해볼 것) 산점도(Scatter plot)을 그릴 때 스팟의 크기가 작은게 도움이 됨(크면 겹쳐서 잘 안보일수도) 결론 파트에서 실제 택할 수 있는 실물제품이 있다면 같이 보여주는 것도 하나의 방법 무엇보다 프로젝트의 결론을 명확하게 끝마칠 것(액션 플랜 제시 등) 새로운 지표를 설정해서 보는 것은 좋은 접근 분석을 마치고 결론에서 제시한 방안끼리 충돌할 가능성도 고려할 것 최대, 최소, 평균 뿐만 아니라 중앙값도 확인해 볼 것(평균은 극단치로 인해 편향되어 있을 가능성 존재) 귀무가설 통계학에서 처음부터 버릴 것으로 가정하는 가설 차이가 없거나 의미있는 차.. 2024. 4. 19. [TIL]본캠프 4일차 LAG함수, LEAD함수 두 함수 모두 2개의 행간의 차이를 구할 때 사용됨 LAG 함수: 현재 행 이전의 행을 가져올 때 사용 LEAD 함수: 현재 행 이후의 행을 가져올 때 사용 #사용 예시 SELECT LAG(Column1) OVER(PARTITION BY Column1 ORDER BY Column1) FROM table1 이상값(Outlier) 의도치 않게 잘못 입력된 값 or 분석 목적에 부합되지 않아 제거해야 하는 경우 or 의도하지 않았지만 분석에 포함해야하는 경우 이상값을 꼭 제거해야하는 것은 아니기에 분석의 목적이나 종류에 따라 적절한 판단 필요 이상값 사용 분야: 사기 탐지, 의료, 네트워크 침입탑지 등 부정 사용 방지 이상값 판단 방법 ESD(Extreme Studentized Dev.. 2024. 4. 18. [TIL]본캠프 3일차 MySQL 문자열 길이 출력 함수 length(): byte길이를 가져오는 함수 char_length(): byte 수를 계산하지 않고 단순히 몇 개의 문자가 있는지 가져오는 함수 Python 숫자 판별 str.isdigit('판단하고자 하는 문자열') 혹은 '판단하고자 하는 문자열'.isdigit() 판단하고자 하는 문자열이 모두 숫자면 True, 아니라면 False를 반환 음수와 소수점을 판단하지 못하기 때문에 포함되면 False를 반환 데이터 마트 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스 시간 및 공간적인 효율성 증대 데이터 전처리 데이터 정제(결측치 및 이상치 제거)+분석 변수 처리(변수 선택, 파생변수 생성.. 2024. 4. 17. [TIL]본캠프 2일차 WITH 구문 가상의 테이블을 저장할 때 사용 #WITH 구문 WITH [테이블 명] AS ( SELECT - FROM - ) WITH RECURSIVE 구문을 이용한 가상 테이블 생성 #WITH RECURSIVE 구문 문법 WITH RECURSIVE [테이블 명] AS ( SELECT - #무조건 필수 UNION ALL # RECURSIVE 사용 시 필수 (다음에 이어붙어야 할 때 사용) SELECT - WHERE - # RECURSIVE 사용 시 필수 (정지 조건 필요할 때 사용) ) #WITH RECURSIVE 구문을 통한 0~23까지 가상테이블 생성 WITH RECURSIVE TIME AS ( SELECT 0 AS HOUR UNION ALL SELECT HOUR+1 FROM TIME WHERE H.. 2024. 4. 16. 이전 1 ··· 21 22 23 24 25 26 27 28 다음 728x90