- 데이터 분석 기획
- 실제 분석을 수행하기 전, 분석을 수행할 과제의 정의 및 결과를 도출할 수 있도록 관리하는 방안을 사전에 계획
- 어떤 목표(What)를 달성하기 위하여 어떤 데이터를 가지고 어떤 방식(How)으로 수행할지
- 분석 기획시 고려사항
- 가용 데이터 고려(Available Data)
- 분석을 위한 데이터 확보가 우선이며 데이터 유형에 대한 분석이 선행적으로 이루어질 것
- 적절한 활용방안과 유스케이스의 탐색(Proper Business Use Case)
- 유사 분석 시나리오 및 솔루션을 최대한 활용할 것
- 장애요소에 대한 사전 계획 수립(Low Barrier of Execution)
- 일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 변화 관리(Change Management)가 고려되어야 함
- 가용 데이터 고려(Available Data)
- 분석 방법론
- 방법론은 상세한 절차(Procedure), 방법(Methods), 도구와 기법(Tool&Techniques), 탬플릿과 산출물(Templates&Outputs)로 구성되어야 함
- 합리적 의사결정을 가로막는 3가지 방해요소: 고정관념, 편향된 생각, 프레이밍 효과
→프레이밍 효과(Framing Effect): 동일한 사건이나 상황을 두고 개인의 판단이나 선택이 달라질 수 있는 현상 - 생성 과정: 개인의 암묵지 →조직의 형식지(형식화) →문서화한 최적화된 형식지(체계화): 방법론
- 분석 방법론의 대표적 모델
- 폭포수 모델(Waterfall Model)
- 단계를 거쳐 순차적으로 진행되며 이전 단계가 완료되어야 다음 단계로 진행 가능한 하향식
- 문제 및 개선사항이 발견될 경우 바로 이전 단계로 돌아가 피드백 수행
- 프로토타입 모델(Prototype Model)
- 폭포수 모데르이 단점을 보완하기 위해 점진적으로 시스템을 개발
- 고객의 요구를 완전히 이해하지 못하는 경우 적용하며 일부분을 먼저 개발하여 제공하고 결과를 통해 개선
- 나선형 모델(Spiral Model)
- 반복을 통해 점진적으로 개발하며 프로토타입 모델과 유사하지만 사용자의 요구보다 위험요소 제거에 초점
- 처음 시도하는 프로젝트에는 적용이 용이하지만 관리 체계가 효과적이지 않으면 복잡도가 상승
- 계층적 프로세스 모델
- 일반적인 분석 방법론은 계층적 프로세스 모델의 형태로 구성
- 최상의 계층부터 단계→태스크→스텝의 구조를 가지며 보통 5단계를 사용
- 스텝은 WBS(Work Breakdown Structure)의 워크패키지에 해당되며 '입력자료, 처리 및 도구, 출력'으로 구성된 단위 프로세스
- 폭포수 모델(Waterfall Model)
- KDD분석 방법론
- 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 시각화 등에서 응용 가능한 구조를 가지고 있다.
- 데이터셋 선택: 비즈니스 도메인에 대한 이해와 프로젝트 목표를 설정하고 필요한 데이터를 선택
- 데이터 전처리: 잡음(Noise), 이상치(Outlier), 결측치(Missing Value)를 파악하여 제거하거나 의미있게 재가공
- 데이터 변환: 데이터 마이닝 프로세스 진행을 위해 데이터셋을 변경하고 데이터의 차원을 축소
- 데이터 마이닝: 학습용 데이터를 이용하여 데이터 마이닝 작업을 실행
- 해석과 평가
- 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 시각화 등에서 응용 가능한 구조를 가지고 있다.
- CRISP-DM 분석 방법론
- KDD분석 방법론과 유사하나 조금 더 세분화되어 있다는 점이 차이점
- 각 단계는 단방향으로 구성되어 있지 않고 단계간 피드백을 통하여 단계별 완성도를 높이게 되어있음
- 업무 이해: 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
- 데이터 이해: 초기 데이터 수집, 기술 분석, 데이터 탐색 및 품질 확인
- 데이터 준비: 분석용 데이터셋 선택, 데이터 정제 및 편성, 데이터 통합, 데이터 포맷팅
- 모델링: 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성 및 평가
- 평가: 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
- 전개: 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성 및 리뷰
- 빅데이터 분석 방법론
- 분석 기획: 비즈니스 도메인의 문제점을 인식하고 분석 계획 및 프로젝트 수행계획을 수립
- 데이터 준비: 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비(데이터 수집 및 정합성 체크)
- 데이터 분석: 원천 데이터를 분석용 데이터셋으로 편성하고 다양한 기법과 알고리즘으로 분석하는 단계(추가 데이터 확보가 필요할 경우 데이터 준비 단계로 피드백하여 반복 진행)
- 시스템 구현: 설계 및 구현, 분석 기획에 맞는 모델을 도출하고 운영중인 가동시스템에 적용
- 평가 및 전개: 프로젝트 평가 및 보고
- 분석 과제 발굴
- 하향식 접근법: 문제가 주어져 있는 상태에서 답을 구하는 방식
- 문제 탐색 단계: 전체적인 관점의 기준 모델을 활용하여 빠짐없이 문제를 도출하고 식별(문제 해결시 발생하는 가치에 중점)
- 문제 정의 단계: 비즈니스 문제를 데이터의 문제로 변환하여 정의
- 해결 방안 탐색 단계: 데이터 분석 문제를 해결하기 위한 방안 모색
→기존 정보 시스템의 단순한 보완으로 분석이 가능한지 고려
→엑셀 등의 간단한 도구로 분석이 가능한지 고려
→빅데이터 분석 도구를 통해 체계적이고 심도있는 방안 고려 - 타당성 검토 단계: 도출된 분석 결과가 타당한지 검토(경제적 타당성, 데이터 및 기술적 타당성)
- 상향식 접근법: 다양한 원천 데이터로부터 통찰과 지식을 얻는 접근 방법
- 하향식 접근법: 문제가 주어져 있는 상태에서 답을 구하는 방식
- 지도학습 및 비지도학습
- 지도 학습(머신러닝, 의사결정 트리, 인공신경망 모형, 분류 분석)
- 명확한 목적하에 데이터 분석을 실시
- 정답이 있는 데이터를 활용하여 분석 모델을 학습
- 분류, 추측, 예측, 최적화를 통해 사용자 주도 하에 분석을 실시하고 지식을 도출
- 비지도 학습(장바구니 분석, 기술통계, 프로파일링, 군집 분석)
- 정답을 알려주지 않고 학습하는 것
- 정답 레이블이 없는 데이터를 비슷한 특징을 가진 데이터끼리 군집화하여 새로운 데이터에 대한 결과 예측
- 상향식 접근 방식의 데이터 분석을 주로 수행
- 지도 학습(머신러닝, 의사결정 트리, 인공신경망 모형, 분류 분석)
ADsP 외울게 진짜 많다!!!!!
1회독으로는 어림도 없을 것 같은 느낌....
계속해서 돌려봐야겠다
아무튼 이번주도 끝:)
'Data > [스파르타 내일배움캠프]' 카테고리의 다른 글
[TIL]사전캠프 학습 9일차 (2) | 2024.04.09 |
---|---|
[WIL]사전캠프 2주차 (2) | 2024.04.05 |
[TIL]사전캠프 학습 7일차 (2) | 2024.04.04 |
[TIL]사전캠프 학습 6일차 (2) | 2024.04.03 |
[WIL]사전캠프 1주차 (2) | 2024.03.29 |