- 빅데이터
- 일반적 정의: 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
- 빅데이터를 보는 관점에 따른 정의
- 3V(Volume,Variety,Velocity)로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위의 정의
- 데이터 자체 뿐만 아니라 처리, 분석 기술적 변화까지 포함하는 중간 범위의 정의
- 인재, 조직 변화까지 포함한 넓은 관점으로의 정의
- 4V: 더그 래니(Doug Laney)의 3V에 추가로 Value 또는 Veracity를 포함해 4V로 설명하기도 함
→Visualization이나 Variability를 추가하는 견해도 존재
- 빅데이터의 출현 배경
- 산업계: 고객 데이터 축적(양질 전환 법칙, 일정한 양이 누적되면 어느 순간 질적인 비약이 일어남)
- 학계: 거대 데이터 활용 과학 확산(게놈 프로젝트, 기후 시뮬레이션 등)
- 기술발전: 관련 기술의 발달(저장 기술의 발전과 가격하락, 클라우드 컴퓨팅의 보현화와 분산처리 기술 등)
- 빅데이터로 인한 변화
- 사전처리 →사후처리: 필요한 정보만 수집하고 나머지는 버리는 시스템에서 가능한 많은 데이터를 모으는 방식
- 표본조사 →전수조사: 데이터 수집 및 처리 비용이 감소(클라우드 기술 발전)
- 질 →양: 수집 데이터의 양이 증가할 경우 양질의 정보가 오류 정보보다 많음
- 인과관계 →상관관계: 실시간 상관관계 분석을 통한 인사이트를 바탕으로 의사결정
- 빅데이터 활용에 필요한 3요소
- 데이터: 모든 것을 데이터화
- 기술: 인공지능, 진화하는 알고리즘
- 인력: 데이터 사이언티스트
- 빅데이터 가치 산정이 어려운 이유
- 데이터 활용 방식: 특정 데이터를 누가, 언제, 어떻게 활용하는지 파악하기 어려움
- 새로운 가치 창출: 기존에 없던 새로운 가치를 창출함
- 분석 기술의 발전: 현재 가치가 없는 데이터일지라도 추후 새로운 분석 기법으로 가치가 발생할 수 있음
- 빅데이터 활용 기본 테크닉
- 연관규칙 학습(Association rule learning)
- 변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 반석
- 연관분석 혹은 장바구니 분석으로 불리며, 고객이 구매한 물품들을 분석하여 품목 사이에 규칙을 찾아내는 분석기법
- 유형분석(Classification tree analysis)
- 새로운 사건이 속할 범주/분류를 찾아내는 방법
- 유전 알고리즘(Genetic algorithms)
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜나가는 방법
- 진화 이론에서 영감을 받아서 개발되어 유전학의 개념을 모방하여 해결해야 하는 문제의 해를 발견하는 과정에서 개체의 집합을 진화
- 여러 세대를 반복하여 최적해 및 근사해를 찾아냄
- 기계학습(Machine learning)
- 훈련 데이터로부터 얻은 특성을 활용해 예측하는 방법(데이터 학습 → 예측 모형)
- 특정한 하나의 분석 방법이 아닌 다양한 분석 알고리즘을 활용해 예측하는 분석모델 자체(딥러닝도 포함)
- 회귀분석(Regression analysis)
- 원인과 결과를 이용한 영향력 분석
- 독립변수를 조작하여 종속변수가 어떻게 변하는지를 보고 두 변인의 관계를 파악
- 감정분석(Sentiment analysis)
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
- 비정형 데이터 마이닝의 대표적 기법
- 소셜 네트워크 분석(SNA,Social Network Analysis)
- 사회관계망 분석으로도 불리며, 유저 사이의 관계를 분석하여 영향력 있는 사람을 찾아내는데 활용
- 연관규칙 학습(Association rule learning)
- 빅데이터의 위기요인 및 통제 방안
- 사생활 침해
- 개인정보가 포함된 데이터의 목적 외 활용 등으로 발생
- 대응방안으로 익명화 기술 발전 중
- 개인정보 제공자의 '동의'를 통하기보다 개인정보 사용자의 '책임'으로 해결
- 책임 원칙 훼손
- 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가
- 특정 행위를 할 가능성이 높다는 이유만으로 처벌 받는 것은 행위 결과에 대해서만 책임을 묻는다는 사회원칙을 크게 훼손할 수 있음
- 기존의 원칙을 좀더 보강하고 강화할 필요가 있으며 예측 자료로 인한 불이익을 최소화하는 장치 마련 필요
- '성향'이 아닌 '행동 결과'로 처벌
- 데이터 오용
- 데이터 과신 혹은 잘못된 지표의 사용으로 손실 발생 가능성이 높음
- 과거 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 행위는 위험
- 알고리즘에 대한 접근권을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개
- 사생활 침해
- 개인정보 비식별 기술
- 데이터 마스킹: 데이터의 일부를 식별할 수 없는 임의의 값으로 대체(데이터 →**터)
- 가명처리: 데이터의 값을 다른 값으로 변경
- 총계처리: 데이터의 총합 또는 평균값을 보여주며 개별 데이터의 값을 보호
- 데이터값 삭제: 개인 식별에 중요한 값을 삭제
- 데이터 범주화: 데이터의 값을 범주화하여 특정값을 숨김
- 데이터 사이언스
- 데이터로부터 의미 있는 정보를 추출해내는 학문
- 통계학이 정형화된 실험 데이터를 분석 대상으로 하는 것에 비해, 데이터 사이언스는 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 함
- 데이터 사이언스의 핵심 구성요소
- Analytics: 분석적 영역(수학, 확률 모델, 머신러닝, 분석학 등)
- IT(Data Management): 데이터 처리와 관련된 IT 영역(시그널 프로세싱, 프로그래밍, 데이터 엔지니어링 등)
- 비즈니스 분석: 비즈니스 컨설팅 영역(커뮤니케이션, 프레젠테이션 등)
- 데이터 사이언티스트의 요구역량
- Hard Skill: 빅데이터에 대한 이론적 지식, 분석 기술에 대한 숙련
- Soft Skill: 통찰력 있는 분석, 설득력 있는 전달, 다분야 간 협력
SQLD 합격하고 ADsP 시험을 위해 공부하고 있는데 생각보다 볼게 많다...
그래도 꽤 흥미있게 배우고 있어서 재밌다:)
천천히 하면 뭐든 되지 않을까~!!
'Data > [스파르타 내일배움캠프]' 카테고리의 다른 글
[WIL]사전캠프 2주차 (2) | 2024.04.05 |
---|---|
[TIL]사전캠프 학습 8일차 (2) | 2024.04.05 |
[TIL]사전캠프 학습 6일차 (2) | 2024.04.03 |
[WIL]사전캠프 1주차 (2) | 2024.03.29 |
[TIL]사전캠프 학습 5일차 (4) | 2024.03.29 |