[이기적] 결측값 처리 방법 정리 (MCAR / MAR / NMAR / 대치법)

[이기적] 결측값 처리 방법 정리 (MCAR / MAR / NMAR / 대치법)

2026. 3. 8. 06:55ㆍCertifications/빅데이터분석기사 필기

💡 데이터 분석 과정에서 결측값(Missing Data) 은 매우 흔하게 발생하는 문제이며,
데이터 품질과 분석 결과의 신뢰도에 직접적인 영향을 주는 요소이다.

결측값을 무작정 제거하거나 임의로 채우면 데이터 편향(Bias) 이 발생할 수 있으므로
결측 발생 원인을 이해하고 적절한 처리 방법을 선택하는 것이 중요하다.

1️⃣ 결측값(Missing Data)

✅ 결측값의 정의

데이터 분석 시 관측되지 않거나 존재하지 않는 데이터 값
데이터 수집·저장 과정에서 누락된 값

🔹 결측값 발생 예시

설문 응답 누락
데이터 수집 오류
시스템 저장 오류
측정 실패

🎯 포인트

결측값 = Missing Data
분석 결과 왜곡 가능 → 반드시 전처리 필요

2️⃣ 결측값 처리 시 문제

✅ 결측값 임의 제거

분석 데이터의 표본 수 감소
통계 분석에 필요한 유의 수준 확보 실패 가능

✅ 결측값 임의 대체

데이터 편향(Bias) 발생
분석 결과 신뢰도 저하

🎯 포인트

결측값 제거 → 표본 감소
결측값 임의 대체 → Bias 발생

3️⃣ 결측 데이터 유형

결측 데이터는 발생 원인에 따라 3가지 유형으로 구분

유형	결측 발생 원인	다른 변수와 관계	해당 변수와 관계	예시
MCAR (Missing Completely At Random)	완전 무작위로 결측 발생	관련 없음	관련 없음	센서 오류로 일부 데이터 누락
MAR (Missing At Random)	다른 변수의 영향으로 결측 발생	관련 있음	관련 없음	소득이 낮을수록 응답 누락
NMAR (Not Missing At Random)	해당 변수 값 자체로 인해 결측 발생	관련 있을 수 있음	관련 있음	소득이 높을수록 소득 질문 미응답

🎯 포인트

MCAR → 완전 무작위 결측
MAR → 다른 변수와 관련
NMAR → 해당 변수 자체와 관련

4️⃣ 결측값 처리 방법

결측값 처리는 크게 단순 대치법과 다중 대치법으로 구분

✅ 단순 대치법 (Simple Imputation)

결측값을 하나의 값으로 대치하는 방법

방법	설명	특징	장단점
완전 분석 (Complete Case Analysis)	결측값이 포함된 데이터를 제거하고 분석	-	장점 · 구현이 간단
완전 분석 (Complete Case Analysis)	결측값이 포함된 데이터를 제거하고 분석	-	단점 · 데이터 손실 발생 · 표본 감소
평균 대치법 (Mean Imputation)	결측값을 해당 변수의 평균값으로 대치	-	장점 · 계산이 단순 · 처리 속도 빠름
평균 대치법 (Mean Imputation)	결측값을 해당 변수의 평균값으로 대치	-	단점 · 데이터 분산 감소 · 통계 왜곡 가능
회귀 대치법 (Regression Imputation)	다른 변수와의 관계를 이용해 회귀모델로 결측값 예측	변수 간 관계 반영 가능 평균 대치보다 정확도 높음	장점 · 평균 대치보다 정확도 ↑
회귀 대치법 (Regression Imputation)	다른 변수와의 관계를 이용해 회귀모델로 결측값 예측	변수 간 관계 반영 가능 평균 대치보다 정확도 높음	단점 · 모델 가정에 의존
최근접 이웃 대치 (Nearest Neighbor)	유사한 데이터 값을 이용하여 결측값 대치	데이터 구조 반영 가능 머신러닝에서 많이 사용	장점 · 데이터 구조 반영 가능
최근접 이웃 대치 (Nearest Neighbor)	유사한 데이터 값을 이용하여 결측값 대치	데이터 구조 반영 가능 머신러닝에서 많이 사용	단점 · 연산량 증가 가능

🔹 기타 결측값 대치 방법

Hot-deck : 유사한 데이터 값을 이용하여 결측값 대치
Cold-deck : 외부 데이터 값을 이용하여 결측값 대치
Carry-over : 이전 시점의 데이터를 이용하여 대치

🎯 포인트

평균 대치 → 분산 감소
회귀 대치 → 회귀모델 사용
최근접 이웃 → 유사 데이터 활용

✅ 다중 대치법 (Multiple Imputation)

단순 대치의 한계를 보완하기 위한 방법

🔹 처리 과정

대치 단계 (Imputation Step)
- 결측값을 여러 개의 값으로 대치
분석 단계 (Analysis Step)
- 여러 개 데이터셋 각각 분석
결합 단계 (Combination Step)
- 분석 결과 통합

🎯 포인트

다중 대치 = Multiple Imputation
단계: 대치 → 분석 → 결합

5️⃣ 결측값 처리 방법 비교

방법	특징	단점
완전 분석	결측 데이터 제거	데이터 손실
평균 대치	평균값으로 대치	분산 감소
회귀 대치	회귀 모델 이용	모델 가정 의존
다중 대치	여러 번 대치 후 결합	연산 복잡

📊 시험 포인트 정리

🔥 1. 결측 데이터 유형

MCAR → 완전 무작위 결측
MAR → 다른 변수와 관련
NMAR → 해당 변수 자체와 관련

🔥 2. 결측값 처리 방법

완전 분석 → 결측 데이터 제거
평균 대치 → 평균값 사용
회귀 대치 → 회귀 모델 이용
최근접 이웃 → 유사 데이터 활용

🔥 3. 다중 대치법 단계

Imputation
Analysis
Combination

📌 암기 핵심 요약

MCAR / MAR / NMAR 구분
Simple Imputation vs Multiple Imputation
평균 대치의 단점 (분산 감소)

2026 이기적 빅데이터분석기사 필기 기본서
(저자: 나홍석, 배원성, 이건길, 이혜영 | 출판사: 영진닷컴)

※ 본 글은 위 교재를 참고하여 학습 목적으로 재정리한 내용입니다.

저작자표시 비영리 변경금지 (새창열림)

'Certifications > 빅데이터분석기사 필기' 카테고리의 다른 글

[이기적] 데이터 탐색(EDA) 개요 정리 (EDA / 산포도 / 히스토그램 / 박스플롯) (0)	2026.03.09
[이기적] 이상값(Outlier) 처리 방법 정리 (Box Plot · Z-score · DBSCAN · Isolation Forest) (0)	2026.03.09
[이기적] 데이터 전처리 개요 정리 (데이터 정제 / 결측값 처리 / 이상치 탐지) (1)	2026.03.08
[이기적] 데이터 분석 절차 정리 (데이터 분석 기획 / 분석 문제 정의 / Top-Down / Bottom-Up / 분석 준비도 / 분석 성숙도) (0)	2026.03.07
[이기적] CRISP-DM 분석 방법론 정리 (KDD / SEMMA 비교) (0)	2026.03.07

byelin 님의 블로그

byelin 님의 블로그

태그

최근글

댓글

공지사항

아카이브

1️⃣ 결측값(Missing Data)

✅ 결측값의 정의

2️⃣ 결측값 처리 시 문제

✅ 결측값 임의 제거

✅ 결측값 임의 대체

3️⃣ 결측 데이터 유형

4️⃣ 결측값 처리 방법

✅ 단순 대치법 (Simple Imputation)

✅ 다중 대치법 (Multiple Imputation)

5️⃣ 결측값 처리 방법 비교

📊 시험 포인트 정리

🔥 1. 결측 데이터 유형

🔥 2. 결측값 처리 방법

🔥 3. 다중 대치법 단계

📌 암기 핵심 요약

'Certifications > 빅데이터분석기사 필기' 카테고리의 다른 글

관련글

티스토리툴바