[이기적] 데이터 탐색(EDA) 개요 정리 (EDA / 산포도 / 히스토그램 / 박스플롯)

2026. 3. 9. 19:18Certifications/빅데이터분석기사 필기

1️⃣ 데이터 탐색의 개요

✅ 탐색적 데이터 분석 (EDA)

  • 데이터를 다양한 방법으로 관찰하고 이해하는 과정
  • 본격적인 모델링 이전에 데이터의 구조와 특성 파악

🔹 특징

  • 데이터의 분포 확인
  • 이상치 탐지
  • 변수 간 관계 파악
  • 데이터 품질 문제 발견

🎯 포인트

  • EDA = 데이터를 이해하는 분석 초기 단계

✅ 데이터 탐색의 필요성

  • EDA는 데이터가 표현하는 현상을 이해하고 문제 해결 방향을 찾기 위해 수행됨

🔹 목적

  • 데이터 분포 및 값 검토
  • 데이터의 잠재적 문제 발견
  • 분석 방향 설정

🔹 효과

  • 문제 해결 방향 도출
  • 새로운 패턴 발견
  • 분석 가설 생성

2️⃣ 데이터 탐색 절차

✅ 분석 절차

  1. 분석 목적 및 변수 확인
  2. 데이터 품질 확인
  3. 데이터 분포 확인
  4. 변수 간 관계 분석
  5. 이상치 탐지

3️⃣ 기초 통계량

  • EDA에서는 데이터 특성을 이해하기 위해 기초 통계량을 활용함

✅ 중심 경향 (Central Tendency)

  • 데이터의 대표값을 나타내는 통계량
구분 설명
평균 (Mean) 전체 데이터를 합한 뒤 데이터 개수로 나눈 값
중앙값 (Median) 데이터를 정렬했을 때 가운데 값
최빈값 (Mode) 가장 많이 등장하는 값

✅ 평균 (Mean)

🔹 모평균

$$
\mu = \frac{x_1 + x_2 + x_3 + \cdots + x_n}{N}
$$

  • N : 전체 모집단의 크기

🔹 표본평균

$$
\bar{x} = \frac{x_1 + x_2 + x_3 + \cdots + x_n}{n}
$$

  • n : 전체 표본의 크기

✅ 기하평균 (Geometric Mean)

  • 데이터 값을 모두 곱한 후 n제곱근을 취한 값
  • 주로 투자 수익률 평균 계산에 사용

$$
GM = \sqrt[n]{x_1 \times x_2 \times \cdots \times x_n}
$$


✅ 조화평균 (Harmonic Mean)

  • 데이터의 역수 평균의 역수로 계산
  • 주로 속도 평균 계산 등에 활용

$$
HM = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \cdots + \frac{1}{x_n}}
$$


4️⃣ 산포도 (Degree of Dispersion)

  • 산포도는 데이터가 평균을 중심으로 얼마나 퍼져 있는지 나타냄

✅ 분산 (Variance)

  • 데이터 값이 평균으로부터 얼마나 떨어져 있는지 나타내는 값

🔹 모분산

$$
\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2
$$

🔹 표본분산

$$
s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2
$$


✅ 표준편차 (Standard Deviation)

  • 분산의 제곱근 값

$$
\sigma = \sqrt{\sigma^2}
$$


✅ 범위 (Range)

  • 데이터의 최대값과 최소값의 차이

$$
Range = Max - Min
$$


✅ 평균 절대 편차 (MAD)

  • 데이터와 평균 사이의 절대값 거리 평균

$$
MAD = \frac{1}{n}\sum_{i=1}^{n} |x_i - \bar{x}|
$$


✅ 변동계수 (Coefficient of Variation)

  • 표준편차를 평균으로 나눈 값으로 상대적 산포 정도를 나타냄

$$
CV = \frac{\sigma}{\mu} \times 100
$$

🔹 특징

  • 단위가 다른 데이터 비교 가능
  • 값이 클수록 변동이 큼

5️⃣ 데이터 분포 형태

✅ 왜도 (Skewness)

  • 데이터 분포의 비대칭 정도를 나타내는 통계량
  • 왜도 값이 0이면 대칭 분포
유형 특징 분포 모양
양의 왜도
(Right-skewed)
오른쪽 꼬리가 길다
(Mean > Median)
0
(Symmetric)
좌우 대칭
(Mean = Median)
음의 왜도
(Left-skewed)
왼쪽 꼬리가 길다
(Mean < Median)

📌 평균·중앙값·최빈값 관계

  • 양의 왜도 : 평균 > 중앙값 > 최빈값
  • 음의 왜도 : 평균 < 중앙값 < 최빈값

✅ 첨도 (Kurtosis)

  • 데이터 분포의 뾰족함(peakedness) 정도를 나타내는 통계량
  • 정규분포의 첨도 값은 3
첨도 값 의미 분포 모양
K < 3 완만한 분포
(Platykurtic)
K = 3 정규분포
(Mesokurtic)
K > 3 뾰족한 분포
(Leptokurtic)

6️⃣ 시각적 데이터 탐색

  • EDA에서는 다양한 데이터 시각화 방법을 사용함
시각화 방법 설명 특징
산점도
(Scatter Plot)
두 변수 간 관계를 나타내는 그래프 상관관계 파악
패턴 및 이상치 확인
줄기 잎 그림
(Stem-and-Leaf Plot)
데이터 값을 줄기와 잎으로 나누어
표현하는 방법
데이터 구조 파악 가능
실제 데이터 값 유지
히스토그램
(Histogram)
데이터 분포를 구간별 빈도
표현한 그래프
데이터 분포 형태 확인
연속형 데이터 표현
막대그래프
(Bar Chart)
범주형 데이터의 빈도 또는 비율
표현하는 그래프
범주 간 비교 용이
파이 차트
(Pie Chart)
전체에서 각 범주가 차지하는 비율
표현하는 그래프
전체 대비 비율 파악
박스플롯
(Box Plot)
데이터 분포와 이상치를 확인하는 그래프 최소값·Q1·중앙값·Q3·최대값
5가지 요약값 표현

📊 시험 포인트 정리

🔥 EDA 핵심 개념

  • EDA = 데이터 탐색 분석
  • 분석 전 데이터 이해 목적

🔥 중심 경향

  • 평균 Mean
  • 중앙값 Median
  • 최빈값 Mode

🔥 산포도

  • 분산
  • 표준편차
  • 범위
  • 변동계수

🔥 분포 형태

  • 왜도 → 비대칭 정도
  • 첨도 → 뾰족한 정도

🔥 시각화

  • 산점도 → 변수 관계
  • 히스토그램 → 분포
  • 박스플롯 → 이상치 확인





2026 이기적 빅데이터분석기사 필기 기본서
(저자: 나홍석, 배원성, 이건길, 이혜영 | 출판사: 영진닷컴)

※ 본 글은 위 교재를 참고하여 학습 목적으로 재정리한 내용입니다.