본문 바로가기
Data/[스파르타 내일배움캠프]

[TIL]사전캠프 학습 7일차

by MIN_JOON 2024. 4. 4.
  • 빅데이터
    • 일반적 정의: 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
    • 빅데이터를 보는 관점에 따른 정의
      1. 3V(Volume,Variety,Velocity)로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위의 정의
      2. 데이터 자체 뿐만 아니라 처리, 분석 기술적 변화까지 포함하는 중간 범위의 정의
      3. 인재, 조직 변화까지 포함한 넓은 관점으로의 정의
    • 4V: 더그 래니(Doug Laney)의 3V에 추가로 Value 또는 Veracity를 포함해 4V로 설명하기도 함
      →Visualization이나 Variability를 추가하는 견해도 존재
  • 빅데이터의 출현 배경
    • 산업계: 고객 데이터 축적(양질 전환 법칙, 일정한 양이 누적되면 어느 순간 질적인 비약이 일어남)
    • 학계: 거대 데이터 활용 과학 확산(게놈 프로젝트, 기후 시뮬레이션  등)
    • 기술발전: 관련 기술의 발달(저장 기술의 발전과 가격하락, 클라우드 컴퓨팅의 보현화와 분산처리 기술 등)
  • 빅데이터로 인한 변화
    • 사전처리 →사후처리: 필요한 정보만 수집하고 나머지는 버리는 시스템에서 가능한 많은 데이터를 모으는 방식
    • 표본조사 →전수조사: 데이터 수집 및 처리 비용이 감소(클라우드 기술 발전)
    • →양: 수집 데이터의 양이 증가할 경우 양질의 정보가 오류 정보보다 많음
    • 인과관계 →상관관계: 실시간 상관관계 분석을 통한 인사이트를 바탕으로 의사결정
  • 빅데이터 활용에 필요한 3요소
    • 데이터: 모든 것을 데이터화
    • 기술: 인공지능, 진화하는 알고리즘
    • 인력: 데이터 사이언티스트
  • 빅데이터 가치 산정이 어려운 이유
    • 데이터 활용 방식: 특정 데이터를 누가, 언제, 어떻게 활용하는지 파악하기 어려움
    • 새로운 가치 창출: 기존에 없던 새로운 가치를 창출함
    • 분석 기술의 발전: 현재 가치가 없는 데이터일지라도 추후 새로운 분석 기법으로 가치가 발생할 수 있음
  • 빅데이터 활용 기본 테크닉
    1. 연관규칙 학습(Association rule learning)
      • 변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 반석
      • 연관분석 혹은 장바구니 분석으로 불리며, 고객이 구매한 물품들을 분석하여 품목 사이에 규칙을 찾아내는 분석기법
    2. 유형분석(Classification tree analysis)
      • 새로운 사건이 속할 범주/분류를 찾아내는 방법
    3. 유전 알고리즘(Genetic algorithms)
      • 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜나가는 방법
      • 진화 이론에서 영감을 받아서 개발되어 유전학의 개념을 모방하여 해결해야 하는 문제의 해를 발견하는 과정에서 개체의 집합을 진화
      • 여러 세대를 반복하여 최적해 및 근사해를 찾아냄
    4. 기계학습(Machine learning)
      • 훈련 데이터로부터 얻은 특성을 활용해 예측하는 방법(데이터 학습 예측 모형)
      • 특정한 하나의 분석 방법이 아닌 다양한 분석 알고리즘을 활용해 예측하는 분석모델 자체(딥러닝도 포함)
    5. 회귀분석(Regression analysis)
      • 원인과 결과를 이용한 영향력 분석
      • 독립변수를 조작하여 종속변수가 어떻게 변하는지를 보고 두 변인의 관계를 파악
    6. 감정분석(Sentiment analysis)
      • 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
      • 비정형 데이터 마이닝의 대표적 기법
    7. 소셜 네트워크 분석(SNA,Social Network Analysis)
      • 사회관계망 분석으로도 불리며, 유저 사이의 관계를 분석하여 영향력 있는 사람을 찾아내는데 활용
  • 빅데이터의 위기요인 및 통제 방안
    1. 사생활 침해
      • 개인정보가 포함된 데이터의 목적 외 활용 등으로 발생
      • 대응방안으로 익명화 기술 발전 중
      • 개인정보 제공자의 '동의'를 통하기보다 개인정보 사용자의 '책임'으로 해결
    2. 책임 원칙 훼손
      • 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가
      • 특정 행위를 할 가능성이 높다는 이유만으로 처벌 받는 것은 행위 결과에 대해서만 책임을 묻는다는 사회원칙을 크게 훼손할 수 있음
      • 기존의 원칙을 좀더 보강하고 강화할 필요가 있으며 예측 자료로 인한 불이익을 최소화하는 장치 마련 필요
      • '성향'이 아닌 '행동 결과'로 처벌
    3. 데이터 오용
      • 데이터 과신 혹은 잘못된 지표의 사용으로 손실 발생 가능성이 높음
      • 과거 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 행위는 위험
      • 알고리즘에 대한 접근권을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개
  • 개인정보 비식별 기술
    • 데이터 마스킹: 데이터의 일부를 식별할 수 없는 임의의 값으로 대체(데이터 →**터)
    • 가명처리: 데이터의 값을 다른 값으로 변경
    • 총계처리: 데이터의 총합 또는 평균값을 보여주며 개별 데이터의 값을 보호
    • 데이터값 삭제: 개인 식별에 중요한 값을 삭제
    • 데이터 범주화: 데이터의 값을 범주화하여 특정값을 숨김
  • 데이터 사이언스
    • 데이터로부터 의미 있는 정보를 추출해내는 학문
    • 통계학이 정형화된 실험 데이터를 분석 대상으로 하는 것에 비해, 데이터 사이언스는 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 함
  • 데이터 사이언스의 핵심 구성요소
    • Analytics: 분석적 영역(수학, 확률 모델, 머신러닝, 분석학 등)
    • IT(Data Management): 데이터 처리와 관련된 IT 영역(시그널 프로세싱, 프로그래밍, 데이터 엔지니어링 등)
    • 비즈니스 분석: 비즈니스 컨설팅 영역(커뮤니케이션, 프레젠테이션 등)
  • 데이터 사이언티스트의 요구역량
    • Hard Skill: 빅데이터에 대한 이론적 지식, 분석 기술에 대한 숙련
    • Soft Skill: 통찰력 있는 분석, 설득력 있는 전달, 다분야 간 협력

SQLD 합격하고 ADsP 시험을 위해 공부하고 있는데 생각보다 볼게 많다...

그래도 꽤 흥미있게 배우고 있어서 재밌다:)

천천히 하면 뭐든 되지 않을까~!!

'Data > [스파르타 내일배움캠프]' 카테고리의 다른 글

[WIL]사전캠프 2주차  (2) 2024.04.05
[TIL]사전캠프 학습 8일차  (2) 2024.04.05
[TIL]사전캠프 학습 6일차  (2) 2024.04.03
[WIL]사전캠프 1주차  (2) 2024.03.29
[TIL]사전캠프 학습 5일차  (4) 2024.03.29