[이기적] 데이터 전처리 개요 정리 (데이터 정제 / 결측값 처리 / 이상치 탐지)
2026. 3. 8. 04:14ㆍCertifications/빅데이터분석기사 필기
💡 데이터 전처리는 데이터 분석 과정에서 매우 중요한 단계로,
데이터 정제·결측값 처리·이상치 탐지를 통해 데이터를 분석 가능한 형태로 만드는 작업이다.
1️⃣ 데이터 정제(Data Cleaning)
✅ 개념
- 분석에 필요한 데이터를 추출·통합·가공하여 분석 가능한 형태로 만드는 과정
- 단순 오류 제거가 아니라 분석 목적에 맞게 데이터 구조를 재구성하는 과정
🎯 포인트
- 데이터 정제 = 분석 가능 형태로 변환
✅ 데이터 정제 필요성
🔹 1. 원하는 분석 결과 도출
- 분석 도구와 기법에 맞게 데이터를 정제해야 함
🔹 2. 데이터 품질 확보
- 결측값, 중복, 오류 데이터 제거
🔹 3. 분석 결과 신뢰성 확보
- 정제되지 않은 데이터는 분석 결과 왜곡 가능
2️⃣ 데이터 정제 과정
| 전처리 단계 | 수행 내용 |
|---|---|
| 데이터 수집 | 입력 방법 결정, 데이터 구조 정의 |
| 데이터 변환 | 데이터 형식 변환, ETL 수행 |
| 데이터 교정 | 결측값, 이상치, 노이즈 제거 |
| 데이터 통합 | 다양한 데이터 소스 통합 |
✅ 데이터 변환 주요 방법
| 변환 방법 | 설명 | 예시 |
|---|---|---|
|
집계 (Aggregation) |
데이터를 요약하여 통계 정보 생성 | 평균, 중앙값, 최소값, 최대값, 분산 |
|
일반화 (Generalization) |
데이터의 패턴이나 일반적인 특성 추출 | 이미지 처리 → 패턴 추출 |
|
정규화 (Normalization) |
데이터 값을 일정 범위로 변환 | Min-Max 정규화, Z-score 정규화 |
|
평활화 (Smoothing) |
데이터의 노이즈 제거 | 이동평균, 지수평활 |
3️⃣ 데이터 결측값 처리
✅ 결측값(Missing Data)
- 데이터 분석 시 값이 존재하지 않는 데이터
✅ 결측값 문제
- 분석 데이터 손실 발생
- 분석 결과 편향(Bias) 발생 가능
4️⃣ 결측 데이터 종류
| 유형 | 설명 | 예시 |
|---|---|---|
|
MCAR (Missing Completely At Random) |
· 완전 무작위 결측 · 결측 여부가 다른 변수와 관련 없음 |
센서 오류로 인한 데이터 누락 |
|
MAR (Missing At Random) |
· 다른 변수와 관련된 결측 · 결측 여부가 다른 변수와 관련 있음 |
특정 연령대에서 소득 응답 누락 |
|
NMAR (Not Missing At Random) |
· 결측 자체가 특정 패턴을 가짐 · 결측값 자체가 특정 이유로 발생 |
고소득자의 소득 미응답 |
5️⃣ 결측값 처리 방법
| 처리 방법 | 설명 | 대표 방법 / 절차 |
|---|---|---|
|
단순 대체법 (Simple Imputation) |
결측값을 통계값으로 대체하는 방법 |
평균 대체 중앙값 대체 최빈값 대체 |
|
회귀 대체법 (Regression Imputation) |
회귀 모델을 이용하여 결측값을 예측하여 대체 | 회귀 분석 기반 예측 |
| Hot-deck 대체 | 유사한 특성을 가진 데이터의 값을 사용하여 결측값 대체 | 유사 데이터 값 활용 |
|
다중 대체법 (Multiple Imputation) |
여러 번 결측값을 대체하여 분석 결과의 신뢰성을 높이는 방법 |
① 대치 단계 ② 분석 단계 ③ 결합 단계 |
6️⃣ 데이터 이상치(Outlier)
✅ 이상치 정의
- 정상 범위를 벗어난 비정상적인 데이터
🔹예시
- 측정 오류
- 입력 오류
- 극단값
7️⃣ 이상치 발생 원인
| 유형 | 설명 |
|---|---|
| 입력 오류 | 데이터 입력 과정에서 발생하는 실수 |
| 측정 오류 | 측정 장비 문제로 발생하는 데이터 오류 |
| 실험 오류 | 실험 환경이나 과정에서 발생하는 오류 |
| 의도적 이상치 | 자기보고 오류 등 의도적으로 발생하는 이상치 |
8️⃣ 이상치 문제점
- 통계 분석 신뢰도 저하
- 평균 및 분산 왜곡
- 데이터 정규성 감소
9️⃣ 이상치 탐지 방법
- 이상치는 단변량 / 다변량 방법으로 탐지
| 탐지 방법 | 설명 | 기준 / 특징 |
|---|---|---|
| 시각화 기반 탐지 | 데이터를 시각적으로 확인하여 이상치 탐지 |
Box Plot Stem and Leaf Plot Scatter Plot |
|
Box Plot (상자 그림) |
사분위수를 이용하여 이상치 탐지 |
IQR = Q3 − Q1
하한 = Q1 − 1.5 × IQR 상한 = Q3 + 1.5 × IQR |
| Z-score 기반 탐지 | 평균과 표준편차를 이용한 표준화 기반 이상치 탐지 |
z = (x − μ) / σ
|z| > 2 → 이상치 후보 |z| > 3 → 이상치 |
| DBSCAN |
밀도 기반 클러스터링을 이용한 이상치 탐지 |
군집 밀도가 낮은 데이터 → 이상치 |
| Isolation Forest | 데이터를 분리하는 과정에서 이상치를 탐지 |
랜덤 트리 기반 알고리즘 이상치는 분리 경로가 짧음 |
🔟 이상치 처리 방법
🔹 대표 방법
- 제거
- 대체
- 변환
- 분석 모델에서 처리
📊 시험 포인트 정리
🔥 결측 데이터 유형
- MCAR
- MAR
- NMAR
🔥 이상치 탐지
- Box Plot
- Z-score
- Scatter Plot
🔥 이상치 기준
- |Z| > 3
🔥 IQR 이상치 기준
-
Q1 − 1.5IQR
Q3 + 1.5IQR
🔥 이상치 탐지 알고리즘
- DBSCAN
- Isolation Forest
📌 암기 핵심 요약
| 구분 | 핵심 내용 |
|---|---|
| 데이터 정제 | 분석 가능한 형태로 데이터 변환 |
| 결측값 | 데이터 값이 없는 상태 |
| 결측 유형 | MCAR / MAR / NMAR |
| 이상치 | 정상 범위를 벗어난 값 |
| 이상치 탐지 | Box Plot / Z-score |
| 이상치 알고리즘 | DBSCAN / Isolation Forest |

2026 이기적 빅데이터분석기사 필기 기본서
(저자: 나홍석, 배원성, 이건길, 이혜영 | 출판사: 영진닷컴)
※ 본 글은 위 교재를 참고하여 학습 목적으로 재정리한 내용입니다.
'Certifications > 빅데이터분석기사 필기' 카테고리의 다른 글
| [이기적] 이상값(Outlier) 처리 방법 정리 (Box Plot · Z-score · DBSCAN · Isolation Forest) (0) | 2026.03.09 |
|---|---|
| [이기적] 결측값 처리 방법 정리 (MCAR / MAR / NMAR / 대치법) (0) | 2026.03.08 |
| [이기적] 데이터 분석 절차 정리 (데이터 분석 기획 / 분석 문제 정의 / Top-Down / Bottom-Up / 분석 준비도 / 분석 성숙도) (0) | 2026.03.07 |
| [이기적] CRISP-DM 분석 방법론 정리 (KDD / SEMMA 비교) (0) | 2026.03.07 |
| [이기적] 빅데이터 플랫폼 구조 정리 (플랫폼 계층 구조 / 플랫폼 개념) (0) | 2026.03.06 |