[이기적] 결측값 처리 방법 정리 (MCAR / MAR / NMAR / 대치법)
2026. 3. 8. 06:55ㆍCertifications/빅데이터분석기사 필기
💡 데이터 분석 과정에서 결측값(Missing Data) 은 매우 흔하게 발생하는 문제이며,
데이터 품질과 분석 결과의 신뢰도에 직접적인 영향을 주는 요소이다.
결측값을 무작정 제거하거나 임의로 채우면 데이터 편향(Bias) 이 발생할 수 있으므로
결측 발생 원인을 이해하고 적절한 처리 방법을 선택하는 것이 중요하다.
1️⃣ 결측값(Missing Data)
✅ 결측값의 정의
- 데이터 분석 시 관측되지 않거나 존재하지 않는 데이터 값
- 데이터 수집·저장 과정에서 누락된 값
🔹 결측값 발생 예시
- 설문 응답 누락
- 데이터 수집 오류
- 시스템 저장 오류
- 측정 실패
🎯 포인트
- 결측값 = Missing Data
- 분석 결과 왜곡 가능 → 반드시 전처리 필요
2️⃣ 결측값 처리 시 문제
✅ 결측값 임의 제거
- 분석 데이터의 표본 수 감소
- 통계 분석에 필요한 유의 수준 확보 실패 가능
✅ 결측값 임의 대체
- 데이터 편향(Bias) 발생
- 분석 결과 신뢰도 저하
🎯 포인트
- 결측값 제거 → 표본 감소
- 결측값 임의 대체 → Bias 발생
3️⃣ 결측 데이터 유형
- 결측 데이터는 발생 원인에 따라 3가지 유형으로 구분
| 유형 | 결측 발생 원인 | 다른 변수와 관계 | 해당 변수와 관계 | 예시 |
|---|---|---|---|---|
| MCAR (Missing Completely At Random) |
완전 무작위로 결측 발생 |
관련 없음 | 관련 없음 | 센서 오류로 일부 데이터 누락 |
| MAR (Missing At Random) |
다른 변수의 영향으로 결측 발생 |
관련 있음 | 관련 없음 | 소득이 낮을수록 응답 누락 |
| NMAR (Not Missing At Random) |
해당 변수 값 자체로 인해 결측 발생 |
관련 있을 수 있음 | 관련 있음 | 소득이 높을수록 소득 질문 미응답 |
🎯 포인트
- MCAR → 완전 무작위 결측
- MAR → 다른 변수와 관련
- NMAR → 해당 변수 자체와 관련
4️⃣ 결측값 처리 방법
- 결측값 처리는 크게 단순 대치법과 다중 대치법으로 구분
✅ 단순 대치법 (Simple Imputation)
- 결측값을 하나의 값으로 대치하는 방법
| 방법 | 설명 | 특징 | 장단점 |
|---|---|---|---|
| 완전 분석 (Complete Case Analysis) |
결측값이 포함된 데이터를 제거하고 분석 |
- |
장점 · 구현이 간단 |
|
단점 · 데이터 손실 발생 · 표본 감소 |
|||
| 평균 대치법 (Mean Imputation) |
결측값을 해당 변수의 평균값으로 대치 |
- |
장점 · 계산이 단순 · 처리 속도 빠름 |
|
단점 · 데이터 분산 감소 · 통계 왜곡 가능 |
|||
| 회귀 대치법 (Regression Imputation) |
다른 변수와의 관계를 이용해 회귀모델로 결측값 예측 |
변수 간 관계 반영 가능 평균 대치보다 정확도 높음 |
장점 · 평균 대치보다 정확도 ↑ |
|
단점 · 모델 가정에 의존 |
|||
| 최근접 이웃 대치 (Nearest Neighbor) |
유사한 데이터 값을 이용하여 결측값 대치 |
데이터 구조 반영 가능 머신러닝에서 많이 사용 |
장점 · 데이터 구조 반영 가능 |
|
단점 · 연산량 증가 가능 |
🔹 기타 결측값 대치 방법
- Hot-deck : 유사한 데이터 값을 이용하여 결측값 대치
- Cold-deck : 외부 데이터 값을 이용하여 결측값 대치
- Carry-over : 이전 시점의 데이터를 이용하여 대치
🎯 포인트
- 평균 대치 → 분산 감소
- 회귀 대치 → 회귀모델 사용
- 최근접 이웃 → 유사 데이터 활용
✅ 다중 대치법 (Multiple Imputation)
- 단순 대치의 한계를 보완하기 위한 방법
🔹 처리 과정
대치 단계 (Imputation Step)
- 결측값을 여러 개의 값으로 대치
분석 단계 (Analysis Step)
- 여러 개 데이터셋 각각 분석
결합 단계 (Combination Step)
- 분석 결과 통합
🎯 포인트
- 다중 대치 = Multiple Imputation
- 단계: 대치 → 분석 → 결합
5️⃣ 결측값 처리 방법 비교
| 방법 | 특징 | 단점 |
|---|---|---|
| 완전 분석 | 결측 데이터 제거 | 데이터 손실 |
| 평균 대치 | 평균값으로 대치 | 분산 감소 |
| 회귀 대치 | 회귀 모델 이용 | 모델 가정 의존 |
| 다중 대치 | 여러 번 대치 후 결합 | 연산 복잡 |
📊 시험 포인트 정리
🔥 1. 결측 데이터 유형
- MCAR → 완전 무작위 결측
- MAR → 다른 변수와 관련
- NMAR → 해당 변수 자체와 관련
🔥 2. 결측값 처리 방법
- 완전 분석 → 결측 데이터 제거
- 평균 대치 → 평균값 사용
- 회귀 대치 → 회귀 모델 이용
- 최근접 이웃 → 유사 데이터 활용
🔥 3. 다중 대치법 단계
- Imputation
- Analysis
- Combination
📌 암기 핵심 요약
- MCAR / MAR / NMAR 구분
- Simple Imputation vs Multiple Imputation
- 평균 대치의 단점 (분산 감소)

2026 이기적 빅데이터분석기사 필기 기본서
(저자: 나홍석, 배원성, 이건길, 이혜영 | 출판사: 영진닷컴)
※ 본 글은 위 교재를 참고하여 학습 목적으로 재정리한 내용입니다.
'Certifications > 빅데이터분석기사 필기' 카테고리의 다른 글
| [이기적] 데이터 탐색(EDA) 개요 정리 (EDA / 산포도 / 히스토그램 / 박스플롯) (0) | 2026.03.09 |
|---|---|
| [이기적] 이상값(Outlier) 처리 방법 정리 (Box Plot · Z-score · DBSCAN · Isolation Forest) (0) | 2026.03.09 |
| [이기적] 데이터 전처리 개요 정리 (데이터 정제 / 결측값 처리 / 이상치 탐지) (1) | 2026.03.08 |
| [이기적] 데이터 분석 절차 정리 (데이터 분석 기획 / 분석 문제 정의 / Top-Down / Bottom-Up / 분석 준비도 / 분석 성숙도) (0) | 2026.03.07 |
| [이기적] CRISP-DM 분석 방법론 정리 (KDD / SEMMA 비교) (0) | 2026.03.07 |