[이기적] 데이터 탐색(EDA) 개요 정리 (EDA / 산포도 / 히스토그램 / 박스플롯)
2026. 3. 9. 19:18ㆍCertifications/빅데이터분석기사 필기
1️⃣ 데이터 탐색의 개요
✅ 탐색적 데이터 분석 (EDA)
- 데이터를 다양한 방법으로 관찰하고 이해하는 과정
- 본격적인 모델링 이전에 데이터의 구조와 특성 파악
🔹 특징
- 데이터의 분포 확인
- 이상치 탐지
- 변수 간 관계 파악
- 데이터 품질 문제 발견
🎯 포인트
- EDA = 데이터를 이해하는 분석 초기 단계
✅ 데이터 탐색의 필요성
- EDA는 데이터가 표현하는 현상을 이해하고 문제 해결 방향을 찾기 위해 수행됨
🔹 목적
- 데이터 분포 및 값 검토
- 데이터의 잠재적 문제 발견
- 분석 방향 설정
🔹 효과
- 문제 해결 방향 도출
- 새로운 패턴 발견
- 분석 가설 생성
2️⃣ 데이터 탐색 절차
✅ 분석 절차
- 분석 목적 및 변수 확인
- 데이터 품질 확인
- 데이터 분포 확인
- 변수 간 관계 분석
- 이상치 탐지
3️⃣ 기초 통계량
- EDA에서는 데이터 특성을 이해하기 위해 기초 통계량을 활용함
✅ 중심 경향 (Central Tendency)
- 데이터의 대표값을 나타내는 통계량
| 구분 | 설명 |
|---|---|
| 평균 (Mean) | 전체 데이터를 합한 뒤 데이터 개수로 나눈 값 |
| 중앙값 (Median) | 데이터를 정렬했을 때 가운데 값 |
| 최빈값 (Mode) | 가장 많이 등장하는 값 |
✅ 평균 (Mean)
🔹 모평균
$$
\mu = \frac{x_1 + x_2 + x_3 + \cdots + x_n}{N}
$$
- N : 전체 모집단의 크기
🔹 표본평균
$$
\bar{x} = \frac{x_1 + x_2 + x_3 + \cdots + x_n}{n}
$$
- n : 전체 표본의 크기
✅ 기하평균 (Geometric Mean)
- 데이터 값을 모두 곱한 후 n제곱근을 취한 값
- 주로 투자 수익률 평균 계산에 사용
$$
GM = \sqrt[n]{x_1 \times x_2 \times \cdots \times x_n}
$$
✅ 조화평균 (Harmonic Mean)
- 데이터의 역수 평균의 역수로 계산
- 주로 속도 평균 계산 등에 활용
$$
HM = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \cdots + \frac{1}{x_n}}
$$
4️⃣ 산포도 (Degree of Dispersion)
- 산포도는 데이터가 평균을 중심으로 얼마나 퍼져 있는지 나타냄
✅ 분산 (Variance)
- 데이터 값이 평균으로부터 얼마나 떨어져 있는지 나타내는 값
🔹 모분산
$$
\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2
$$
🔹 표본분산
$$
s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2
$$
✅ 표준편차 (Standard Deviation)
- 분산의 제곱근 값
$$
\sigma = \sqrt{\sigma^2}
$$
✅ 범위 (Range)
- 데이터의 최대값과 최소값의 차이
$$
Range = Max - Min
$$
✅ 평균 절대 편차 (MAD)
- 데이터와 평균 사이의 절대값 거리 평균
$$
MAD = \frac{1}{n}\sum_{i=1}^{n} |x_i - \bar{x}|
$$
✅ 변동계수 (Coefficient of Variation)
- 표준편차를 평균으로 나눈 값으로 상대적 산포 정도를 나타냄
$$
CV = \frac{\sigma}{\mu} \times 100
$$
🔹 특징
- 단위가 다른 데이터 비교 가능
- 값이 클수록 변동이 큼
5️⃣ 데이터 분포 형태
✅ 왜도 (Skewness)
- 데이터 분포의 비대칭 정도를 나타내는 통계량
- 왜도 값이 0이면 대칭 분포
| 유형 | 특징 | 분포 모양 |
|---|---|---|
| 양의 왜도 (Right-skewed) |
오른쪽 꼬리가 길다 (Mean > Median) |
|
| 0 (Symmetric) |
좌우 대칭 (Mean = Median) |
|
| 음의 왜도 (Left-skewed) |
왼쪽 꼬리가 길다 (Mean < Median) |
📌 평균·중앙값·최빈값 관계
- 양의 왜도 : 평균 > 중앙값 > 최빈값
- 음의 왜도 : 평균 < 중앙값 < 최빈값
✅ 첨도 (Kurtosis)
- 데이터 분포의 뾰족함(peakedness) 정도를 나타내는 통계량
- 정규분포의 첨도 값은 3
| 첨도 값 | 의미 | 분포 모양 |
|---|---|---|
| K < 3 | 완만한 분포 (Platykurtic) |
|
| K = 3 | 정규분포 (Mesokurtic) |
|
| K > 3 | 뾰족한 분포 (Leptokurtic) |
6️⃣ 시각적 데이터 탐색
- EDA에서는 다양한 데이터 시각화 방법을 사용함
| 시각화 방법 | 설명 | 특징 |
|---|---|---|
|
산점도 (Scatter Plot) |
두 변수 간 관계를 나타내는 그래프 |
상관관계 파악 패턴 및 이상치 확인 |
|
줄기 잎 그림 (Stem-and-Leaf Plot) |
데이터 값을 줄기와 잎으로 나누어 표현하는 방법 |
데이터 구조 파악 가능 실제 데이터 값 유지 |
|
히스토그램 (Histogram) |
데이터 분포를 구간별 빈도로 표현한 그래프 |
데이터 분포 형태 확인 연속형 데이터 표현 |
|
막대그래프 (Bar Chart) |
범주형 데이터의 빈도 또는 비율을 표현하는 그래프 |
범주 간 비교 용이 |
|
파이 차트 (Pie Chart) |
전체에서 각 범주가 차지하는 비율을 표현하는 그래프 |
전체 대비 비율 파악 |
|
박스플롯 (Box Plot) |
데이터 분포와 이상치를 확인하는 그래프 |
최소값·Q1·중앙값·Q3·최대값 5가지 요약값 표현 |
📊 시험 포인트 정리
🔥 EDA 핵심 개념
- EDA = 데이터 탐색 분석
- 분석 전 데이터 이해 목적
🔥 중심 경향
- 평균 Mean
- 중앙값 Median
- 최빈값 Mode
🔥 산포도
- 분산
- 표준편차
- 범위
- 변동계수
🔥 분포 형태
- 왜도 → 비대칭 정도
- 첨도 → 뾰족한 정도
🔥 시각화
- 산점도 → 변수 관계
- 히스토그램 → 분포
- 박스플롯 → 이상치 확인

2026 이기적 빅데이터분석기사 필기 기본서
(저자: 나홍석, 배원성, 이건길, 이혜영 | 출판사: 영진닷컴)
※ 본 글은 위 교재를 참고하여 학습 목적으로 재정리한 내용입니다.
'Certifications > 빅데이터분석기사 필기' 카테고리의 다른 글
| [이기적] 표본추출 방법 정리 (단순무작위추출 / 계통추출 / 층화추출 / 군집추출) (0) | 2026.03.11 |
|---|---|
| [이기적] 가설검정 완전 정리 (귀무가설·대립가설 / 유의수준 / p-value / 1종·2종 오류) (0) | 2026.03.11 |
| [이기적] 이상값(Outlier) 처리 방법 정리 (Box Plot · Z-score · DBSCAN · Isolation Forest) (0) | 2026.03.09 |
| [이기적] 결측값 처리 방법 정리 (MCAR / MAR / NMAR / 대치법) (0) | 2026.03.08 |
| [이기적] 데이터 전처리 개요 정리 (데이터 정제 / 결측값 처리 / 이상치 탐지) (1) | 2026.03.08 |