본문 바로가기
Data/[SeSAC 성동1기 전Z전능 데이터 분석가]

[성동 1기 전Z전능 데이터 분석가] Day 28

by MIN_JOON 2023. 11. 23.
  • EDA(Exploratory Data Analysis): 탐색적 데이터 분석
    • 주어진 데이터를 탐색하고 이해하는 과정
    • 주어진 데이터들 안에서 다양한 패턴이나 잠재적인 문제들을 발견
    • 가설을 세우기 전에 데이터를 이해하는 과정
  • EDA를 왜 하는 것일까?
    • 데이터 자체에 대한 이해와 해석이 잘못되면 추후의 데이터 분석의 결과가 잘못될 가능성이 크다.
  • EDA의 분석 대상
    • 일변량(Univariate): EDA를 통해 파악하려는 변수 1개(데이터를 설명하고 패턴을 찾는 것이 목적)
      →어떤 대상의 성격을 규명하기 위하여 한 가지 측면에서 그 대상을 관찰하고 분석
    • 다변량(Multi-variate): EDA를 통해 파악하려는 변수 여러개(변수들 간의 관계를 보는 것이 목적)
      →여러 개의 독립변수에 여러 개의 종속변수를 동시에 분석
      →여러 각도와 측면에서 변수들의 관계를 분석하는 것에 유용
  • EDA의 분석 종류
    • 시각화 분석: 차트, 그림 등을 이용하여 데이터를 확인 →데이터를 한 눈에 파악하여 대략적인 형태 파악
    • 비시각화 분석: 그래픽적 요소 없이 주로 "요약통계량"으로 확인 →정확한 값을 파악하기 좋음
  • EDA의 분석 유형
    • 일변량 시각화
      1. 연속형: 히스토그램 / BOX PLOT / 막대 차트
      2. 범주형: BAR CHART / PIE CHART
    • 다변량 시각화
      1. X 범주형/ Y 연속형: BAR CHART / 집단간 통계비교
      2. X 연속형/ Y 연속형: 분산형 차트 (Scattor Plot)
      3. X 순서형 / Y 연속형: 선 차트 / 순서(시간)에 따른 연속값 추이