[이기적] 데이터 탐색(EDA) 개요 정리 (EDA / 산포도 / 히스토그램 / 박스플롯)

[이기적] 데이터 탐색(EDA) 개요 정리 (EDA / 산포도 / 히스토그램 / 박스플롯)

2026. 3. 9. 19:18ㆍCertifications/빅데이터분석기사 필기

1️⃣ 데이터 탐색의 개요

✅ 탐색적 데이터 분석 (EDA)

데이터를 다양한 방법으로 관찰하고 이해하는 과정
본격적인 모델링 이전에 데이터의 구조와 특성 파악

🔹 특징

데이터의 분포 확인
이상치 탐지
변수 간 관계 파악
데이터 품질 문제 발견

🎯 포인트

EDA = 데이터를 이해하는 분석 초기 단계

✅ 데이터 탐색의 필요성

EDA는 데이터가 표현하는 현상을 이해하고 문제 해결 방향을 찾기 위해 수행됨

🔹 목적

데이터 분포 및 값 검토
데이터의 잠재적 문제 발견
분석 방향 설정

🔹 효과

문제 해결 방향 도출
새로운 패턴 발견
분석 가설 생성

2️⃣ 데이터 탐색 절차

✅ 분석 절차

분석 목적 및 변수 확인
데이터 품질 확인
데이터 분포 확인
변수 간 관계 분석
이상치 탐지

3️⃣ 기초 통계량

EDA에서는 데이터 특성을 이해하기 위해 기초 통계량을 활용함

✅ 중심 경향 (Central Tendency)

데이터의 대표값을 나타내는 통계량

구분	설명
평균 (Mean)	전체 데이터를 합한 뒤 데이터 개수로 나눈 값
중앙값 (Median)	데이터를 정렬했을 때 가운데 값
최빈값 (Mode)	가장 많이 등장하는 값

✅ 평균 (Mean)

🔹 모평균

$$
\mu = \frac{x_1 + x_2 + x_3 + \cdots + x_n}{N}
$$

N : 전체 모집단의 크기

🔹 표본평균

$$
\bar{x} = \frac{x_1 + x_2 + x_3 + \cdots + x_n}{n}
$$

n : 전체 표본의 크기

✅ 기하평균 (Geometric Mean)

데이터 값을 모두 곱한 후 n제곱근을 취한 값
주로 투자 수익률 평균 계산에 사용

$$
GM = \sqrt[n]{x_1 \times x_2 \times \cdots \times x_n}
$$

✅ 조화평균 (Harmonic Mean)

데이터의 역수 평균의 역수로 계산
주로 속도 평균 계산 등에 활용

$$
HM = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \cdots + \frac{1}{x_n}}
$$

4️⃣ 산포도 (Degree of Dispersion)

산포도는 데이터가 평균을 중심으로 얼마나 퍼져 있는지 나타냄

✅ 분산 (Variance)

데이터 값이 평균으로부터 얼마나 떨어져 있는지 나타내는 값

🔹 모분산

$$
\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2
$$

🔹 표본분산

$$
s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2
$$

✅ 표준편차 (Standard Deviation)

분산의 제곱근 값

$$
\sigma = \sqrt{\sigma^2}
$$

✅ 범위 (Range)

데이터의 최대값과 최소값의 차이

$$
Range = Max - Min
$$

✅ 평균 절대 편차 (MAD)

데이터와 평균 사이의 절대값 거리 평균

$$
MAD = \frac{1}{n}\sum_{i=1}^{n} |x_i - \bar{x}|
$$

✅ 변동계수 (Coefficient of Variation)

표준편차를 평균으로 나눈 값으로 상대적 산포 정도를 나타냄

$$
CV = \frac{\sigma}{\mu} \times 100
$$

🔹 특징

단위가 다른 데이터 비교 가능
값이 클수록 변동이 큼

5️⃣ 데이터 분포 형태

✅ 왜도 (Skewness)

데이터 분포의 비대칭 정도를 나타내는 통계량
왜도 값이 0이면 대칭 분포

유형	특징	분포 모양
양의 왜도 (Right-skewed)	오른쪽 꼬리가 길다 (Mean > Median)
0 (Symmetric)	좌우 대칭 (Mean = Median)
음의 왜도 (Left-skewed)	왼쪽 꼬리가 길다 (Mean < Median)

📌 평균·중앙값·최빈값 관계

양의 왜도 : 평균 > 중앙값 > 최빈값
음의 왜도 : 평균 < 중앙값 < 최빈값

✅ 첨도 (Kurtosis)

데이터 분포의 뾰족함(peakedness) 정도를 나타내는 통계량
정규분포의 첨도 값은 3

첨도 값	의미	분포 모양
K < 3	완만한 분포 (Platykurtic)
K = 3	정규분포 (Mesokurtic)
K > 3	뾰족한 분포 (Leptokurtic)

6️⃣ 시각적 데이터 탐색

EDA에서는 다양한 데이터 시각화 방법을 사용함

시각화 방법	설명	특징
산점도 (Scatter Plot)	두 변수 간 관계를 나타내는 그래프	상관관계 파악 패턴 및 이상치 확인
줄기 잎 그림 (Stem-and-Leaf Plot)	데이터 값을 줄기와 잎으로 나누어 표현하는 방법	데이터 구조 파악 가능 실제 데이터 값 유지
히스토그램 (Histogram)	데이터 분포를 구간별 빈도로 표현한 그래프	데이터 분포 형태 확인 연속형 데이터 표현
막대그래프 (Bar Chart)	범주형 데이터의 빈도 또는 비율을 표현하는 그래프	범주 간 비교 용이
파이 차트 (Pie Chart)	전체에서 각 범주가 차지하는 비율을 표현하는 그래프	전체 대비 비율 파악
박스플롯 (Box Plot)	데이터 분포와 이상치를 확인하는 그래프	최소값·Q1·중앙값·Q3·최대값 5가지 요약값 표현

📊 시험 포인트 정리

🔥 EDA 핵심 개념

EDA = 데이터 탐색 분석
분석 전 데이터 이해 목적

🔥 중심 경향

평균 Mean
중앙값 Median
최빈값 Mode

🔥 산포도

분산
표준편차
범위
변동계수

🔥 분포 형태

왜도 → 비대칭 정도
첨도 → 뾰족한 정도

🔥 시각화

산점도 → 변수 관계
히스토그램 → 분포
박스플롯 → 이상치 확인

2026 이기적 빅데이터분석기사 필기 기본서
(저자: 나홍석, 배원성, 이건길, 이혜영 | 출판사: 영진닷컴)

※ 본 글은 위 교재를 참고하여 학습 목적으로 재정리한 내용입니다.

저작자표시 비영리 변경금지 (새창열림)

'Certifications > 빅데이터분석기사 필기' 카테고리의 다른 글

[이기적] 표본추출 방법 정리 (단순무작위추출 / 계통추출 / 층화추출 / 군집추출) (0)	2026.03.11
[이기적] 가설검정 완전 정리 (귀무가설·대립가설 / 유의수준 / p-value / 1종·2종 오류) (0)	2026.03.11
[이기적] 이상값(Outlier) 처리 방법 정리 (Box Plot · Z-score · DBSCAN · Isolation Forest) (0)	2026.03.09
[이기적] 결측값 처리 방법 정리 (MCAR / MAR / NMAR / 대치법) (0)	2026.03.08
[이기적] 데이터 전처리 개요 정리 (데이터 정제 / 결측값 처리 / 이상치 탐지) (1)	2026.03.08

byelin 님의 블로그

태그

최근글

댓글

공지사항

아카이브