[이기적] 결측값 처리 방법 정리 (MCAR / MAR / NMAR / 대치법)

2026. 3. 8. 06:55Certifications/빅데이터분석기사 필기

💡 데이터 분석 과정에서 결측값(Missing Data) 은 매우 흔하게 발생하는 문제이며,
데이터 품질과 분석 결과의 신뢰도에 직접적인 영향을 주는 요소이다.


결측값을 무작정 제거하거나 임의로 채우면 데이터 편향(Bias) 이 발생할 수 있으므로
결측 발생 원인을 이해하고 적절한 처리 방법을 선택하는 것이 중요하다.




1️⃣ 결측값(Missing Data)

✅ 결측값의 정의

  • 데이터 분석 시 관측되지 않거나 존재하지 않는 데이터 값
  • 데이터 수집·저장 과정에서 누락된 값

🔹 결측값 발생 예시

  • 설문 응답 누락
  • 데이터 수집 오류
  • 시스템 저장 오류
  • 측정 실패

🎯 포인트

  • 결측값 = Missing Data
  • 분석 결과 왜곡 가능 → 반드시 전처리 필요

2️⃣ 결측값 처리 시 문제

✅ 결측값 임의 제거

  • 분석 데이터의 표본 수 감소
  • 통계 분석에 필요한 유의 수준 확보 실패 가능

✅ 결측값 임의 대체

  • 데이터 편향(Bias) 발생
  • 분석 결과 신뢰도 저하

🎯 포인트

  • 결측값 제거 → 표본 감소
  • 결측값 임의 대체 → Bias 발생

3️⃣ 결측 데이터 유형

  • 결측 데이터는 발생 원인에 따라 3가지 유형으로 구분
유형 결측 발생 원인 다른 변수와 관계 해당 변수와 관계 예시
MCAR
(Missing Completely At Random)
완전 무작위로
결측 발생
관련 없음 관련 없음 센서 오류로
일부 데이터 누락
MAR
(Missing At Random)
다른 변수의 영향으로
결측 발생
관련 있음 관련 없음 소득이 낮을수록
응답 누락
NMAR
(Not Missing At Random)
해당 변수 값 자체로
인해 결측 발생
관련 있을 수 있음 관련 있음 소득이 높을수록
소득 질문 미응답

🎯 포인트

  • MCAR → 완전 무작위 결측
  • MAR → 다른 변수와 관련
  • NMAR → 해당 변수 자체와 관련

4️⃣ 결측값 처리 방법

  • 결측값 처리는 크게 단순 대치법다중 대치법으로 구분

✅ 단순 대치법 (Simple Imputation)

  • 결측값을 하나의 값으로 대치하는 방법
방법 설명 특징 장단점
완전 분석
(Complete Case Analysis)
결측값이 포함된 데이터를
제거하고 분석
- 장점
· 구현이 간단
단점
· 데이터 손실 발생
· 표본 감소
평균 대치법
(Mean Imputation)
결측값을 해당 변수의
평균값으로 대치
- 장점
· 계산이 단순
· 처리 속도 빠름
단점
· 데이터 분산 감소
· 통계 왜곡 가능
회귀 대치법
(Regression Imputation)
다른 변수와의 관계를 이용해
회귀모델로 결측값 예측
변수 간 관계 반영 가능
평균 대치보다 정확도 높음
장점
· 평균 대치보다 정확도 ↑
단점
· 모델 가정에 의존
최근접 이웃 대치
(Nearest Neighbor)
유사한 데이터 값을 이용하여
결측값 대치
데이터 구조 반영 가능
머신러닝에서 많이 사용
장점
· 데이터 구조 반영 가능
단점
· 연산량 증가 가능

🔹 기타 결측값 대치 방법

  • Hot-deck : 유사한 데이터 값을 이용하여 결측값 대치
  • Cold-deck : 외부 데이터 값을 이용하여 결측값 대치
  • Carry-over : 이전 시점의 데이터를 이용하여 대치

🎯 포인트

  • 평균 대치 → 분산 감소
  • 회귀 대치 → 회귀모델 사용
  • 최근접 이웃 → 유사 데이터 활용

✅ 다중 대치법 (Multiple Imputation)

  • 단순 대치의 한계를 보완하기 위한 방법

🔹 처리 과정

  1. 대치 단계 (Imputation Step)

    • 결측값을 여러 개의 값으로 대치
  2. 분석 단계 (Analysis Step)

    • 여러 개 데이터셋 각각 분석
  3. 결합 단계 (Combination Step)

    • 분석 결과 통합

🎯 포인트

  • 다중 대치 = Multiple Imputation
  • 단계: 대치 → 분석 → 결합

5️⃣ 결측값 처리 방법 비교

방법 특징 단점
완전 분석 결측 데이터 제거 데이터 손실
평균 대치 평균값으로 대치 분산 감소
회귀 대치 회귀 모델 이용 모델 가정 의존
다중 대치 여러 번 대치 후 결합 연산 복잡


📊 시험 포인트 정리

🔥 1. 결측 데이터 유형

  • MCAR → 완전 무작위 결측
  • MAR → 다른 변수와 관련
  • NMAR → 해당 변수 자체와 관련

🔥 2. 결측값 처리 방법

  • 완전 분석 → 결측 데이터 제거
  • 평균 대치 → 평균값 사용
  • 회귀 대치 → 회귀 모델 이용
  • 최근접 이웃 → 유사 데이터 활용

🔥 3. 다중 대치법 단계

  • Imputation
  • Analysis
  • Combination

📌 암기 핵심 요약

  • MCAR / MAR / NMAR 구분
  • Simple Imputation vs Multiple Imputation
  • 평균 대치의 단점 (분산 감소)





2026 이기적 빅데이터분석기사 필기 기본서
(저자: 나홍석, 배원성, 이건길, 이혜영 | 출판사: 영진닷컴)

※ 본 글은 위 교재를 참고하여 학습 목적으로 재정리한 내용입니다.