728x90 데이터분석123 [TIL]본캠프 62일차 Apache SparkSQL, 스트리밍, 머신러닝 및 그래프 처리를 위한 기본 제공 모듈 존재대규모 데이터 처리용 통합 분석 엔진클라우드의 Apache Hadoop, Apache Mesos, Kubernetes에서 자체적으로 실행 가능다양한 데이터 소스 처리 가능 Pyspark: Python을 기반으로 하여 별도의 언어 공부가 필요 없음오버플로(Overflow)크기에 맞지 않는 데이터를 넣어 의도하지 않은 결과가 나오는 것파이썬의 데이터 타입은 기본적으로 동적(Dynamic)이기 때문에 자동으로 데이터형 변경큰 숫자를 다룰 때 주의할 것부동소수점컴퓨터에서 정수가 아닌 숫자의 표현을 보완하기 위해 사용하나의 숫자를 형태와 자릿수로 구분하여 표현필연적으로 오차가 발생하며 메모리가 클수록 오차는 감소딥러닝의 .. 2024. 7. 15. [WIL]본캠프 13주차 일주일 동안 뭐했지?실전 프로젝트 마무리 및 발표FEELINGS🧐 내배캠 진행하면서 했던 프로젝트 중 가장 아쉬운 느낌이 큰 프로젝트인 것 같다. 조금 더 한발 나아가 생각했다면 할 수 있었던 것들을 놓친 느낌이라 그런지, 분석도 대시보드도 막상 끝나고 보니 아쉬운 점 투성이....!그래도 같이 열심히 진행해준 팀원분들에게 고마운 한 주!!!FINDINGS🔎 대시보드를 구성할 때, 어떤 지표를 어떤 위치에 어떤 시각화를 통해 배치할 것인지를 충분히 고려할 것. 또한 대시보드의 목적을 명확하게 대시보드의 사용자를 고려하여 설정해야한다. 서식, 색상 등도 일관성있게 일치시켜야 하며, 특히 색상의 경우 4개 이상의 색을 사용하지 않을 것!! FUTURE✨ 이제 마지막 학습 주차와 최종 프로젝트를 앞두고 있.. 2024. 7. 12. [TIL]본캠프 61일차(실전 프로젝트 발표) 프로젝트 아쉬웠던 점어떤 지표를 대시보드에 넣을 것인지, 어떤 위치에 배치 시킬 것인지에 대한 고려가 좀 부족했던 것 같음고정적인 대시보드를 사용하여 추가적인 분석이 불가능했던 점대시보드의 목적이 명확하게 정해지지 않은 느낌을 받았던 점프로젝트의 목표가 대시보드에 집중하는 것이었으나 인사이트 도출을 위한 시간을 더 썼던 점처음 보는 사람이 대시보드를 보았을 때 이해할 수 있을지 의문임튜터님 피드백새롭게 생성했던 다른 지표들(CPC, AOV 등)의 추가적 활용이 이루어지지 않은 점이 아쉬움대시보드의 목적이 조금 더 명확했다면 좋았을 것대시보드를 잘 보여줄 수 있는 배치에 대해 조금 더 고려해보는 것도 좋을 것(이전 조의 피드백이지만 기억할 것)대시보드는 왜, 그리고 어떻게 만들까?복잡한 데이터를 목적에 따.. 2024. 7. 12. [TIL]본캠프 60일차 데이터를 가공해야 하는 이유다룰 데이터가 데이터 분석 용도로 상정되지 않은 경우가 존재연산할 때 비교 가능한 형태로 만들기 위함(Null값과 함께 연산하면 Null로 출력)오류를 회피하기 위함가설 검정관찰된 효과가 우연에 의한 것인지 여부를 알아내는 것일원 검정: 한 방향으로만 우연히 일어날 확률을 계산하는 가설검정이원 검정: 양방향으로 우연히 일어날 확률을 계산하는 가설검정귀무가설을 사실이라고 가정하고 영 모형(Null Model)을 생성하여 관찰한 효과가 합리적으로 나올 수 있는 결과인지 확인이번 프로젝트도 얼추 마무리....!조금 아쉬운 부분도 있긴 하지만😭 2024. 7. 11. 이전 1 ··· 4 5 6 7 8 9 10 ··· 31 다음 728x90