본문 바로가기
728x90

데이터분석123

[TIL]본캠프 6일차 측정과 척도 측정: 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것 척도: 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구 질적척도 범주형 자료, 숫자 크기 차이가 계산되지 않음 명목척도: 측정 대상이 어느 집단에 속하는지 분류할 때 사용-성별, 출생지, 대학교 등 순서척도(서열척도): 측정 대상의 특성이 가지는 서열관계를 관측하는 척도-선호도, 신용도 등 양적척도 수치형 자료, 숫자 크기 차이를 계산할 수 있음 구간척도(등간척도): 측정 대상이 갖고 있는 속성의 양을 측정하는 것,간격이 의미가 있는 자료-온도, 지수 등 비율척도:절대적 기준인 0값이 존재하고 모든 사칙연산이 가능(가장 많은 정보를 가짐)-무게,나이,시간,거리 등.. 2024. 4. 22.
[WIL]본캠프 1주차 일주일 동안 뭐했지? 온보딩 미니 프로젝트 알고리즘 코드카타 SQL 코드카타 진행 ADsP 공부 및 정리 FEELINGS🧐 일주일이 이렇게 길었나 싶을만큼 피곤한 일주일...본캠프 시작하자마자 미니 프로젝트를 진행해서 그런가 싶기도 하다. 그래도 이제 진짜 시작이라 열심히 해야겠다. 과거의 내가 벌려놓은 강제 갓생 루틴이 어떻게 되려나 모르겠지만 일단 가보는걸로...! FINDINGS🔎 이전에 진행했던 다른 프로젝트들처럼 비슷한 느낌으로 진행했는데 더 많은 걸 얻어간 것 같다. 데이터를 어떻게 봐야하는지, 어떤 기초통계량을 어떻게 활용할 것인지 등등. 또 프로젝트의 결론 파트와 관련하여 어떻게 끝을 맺고 어떤 방식이 필요한지도 알게된 한 주가 아닐까. FUTURE✨ 어쩌다보니 네이버 부스트클래스도 병행하.. 2024. 4. 19.
[TIL]본캠프 5일차 미니 프로젝트 피드백(타 팀 피드백 포함) 데이터 분석은 당연하지 않은 것을 검증하는게 더 도움이 될 가능성이 높음(긴가민가한 그레이 존을 먼저 검증해볼 것) 산점도(Scatter plot)을 그릴 때 스팟의 크기가 작은게 도움이 됨(크면 겹쳐서 잘 안보일수도) 결론 파트에서 실제 택할 수 있는 실물제품이 있다면 같이 보여주는 것도 하나의 방법 무엇보다 프로젝트의 결론을 명확하게 끝마칠 것(액션 플랜 제시 등) 새로운 지표를 설정해서 보는 것은 좋은 접근 분석을 마치고 결론에서 제시한 방안끼리 충돌할 가능성도 고려할 것 최대, 최소, 평균 뿐만 아니라 중앙값도 확인해 볼 것(평균은 극단치로 인해 편향되어 있을 가능성 존재) 귀무가설 통계학에서 처음부터 버릴 것으로 가정하는 가설 차이가 없거나 의미있는 차.. 2024. 4. 19.
[TIL]본캠프 4일차 LAG함수, LEAD함수 두 함수 모두 2개의 행간의 차이를 구할 때 사용됨 LAG 함수: 현재 행 이전의 행을 가져올 때 사용 LEAD 함수: 현재 행 이후의 행을 가져올 때 사용 #사용 예시 SELECT LAG(Column1) OVER(PARTITION BY Column1 ORDER BY Column1) FROM table1 이상값(Outlier) 의도치 않게 잘못 입력된 값 or 분석 목적에 부합되지 않아 제거해야 하는 경우 or 의도하지 않았지만 분석에 포함해야하는 경우 이상값을 꼭 제거해야하는 것은 아니기에 분석의 목적이나 종류에 따라 적절한 판단 필요 이상값 사용 분야: 사기 탐지, 의료, 네트워크 침입탑지 등 부정 사용 방지 이상값 판단 방법 ESD(Extreme Studentized Dev.. 2024. 4. 18.
728x90