[이기적] 데이터 전처리 개요 정리 (데이터 정제 / 결측값 처리 / 이상치 탐지)

2026. 3. 8. 04:14Certifications/빅데이터분석기사 필기

💡 데이터 전처리는 데이터 분석 과정에서 매우 중요한 단계로,
데이터 정제·결측값 처리·이상치 탐지를 통해 데이터를 분석 가능한 형태로 만드는 작업이다.



1️⃣ 데이터 정제(Data Cleaning)

✅ 개념

  • 분석에 필요한 데이터를 추출·통합·가공하여 분석 가능한 형태로 만드는 과정
  • 단순 오류 제거가 아니라 분석 목적에 맞게 데이터 구조를 재구성하는 과정

🎯 포인트

  • 데이터 정제 = 분석 가능 형태로 변환

✅ 데이터 정제 필요성

🔹 1. 원하는 분석 결과 도출

  • 분석 도구와 기법에 맞게 데이터를 정제해야 함

🔹 2. 데이터 품질 확보

  • 결측값, 중복, 오류 데이터 제거

🔹 3. 분석 결과 신뢰성 확보

  • 정제되지 않은 데이터는 분석 결과 왜곡 가능

2️⃣ 데이터 정제 과정

전처리 단계 수행 내용
데이터 수집 입력 방법 결정, 데이터 구조 정의
데이터 변환 데이터 형식 변환, ETL 수행
데이터 교정 결측값, 이상치, 노이즈 제거
데이터 통합 다양한 데이터 소스 통합

✅ 데이터 변환 주요 방법

변환 방법 설명 예시
집계
(Aggregation)
데이터를 요약하여 통계 정보 생성 평균, 중앙값, 최소값, 최대값, 분산
일반화
(Generalization)
데이터의 패턴이나 일반적인 특성 추출 이미지 처리 → 패턴 추출
정규화
(Normalization)
데이터 값을 일정 범위로 변환 Min-Max 정규화, Z-score 정규화
평활화
(Smoothing)
데이터의 노이즈 제거 이동평균, 지수평활

3️⃣ 데이터 결측값 처리

✅ 결측값(Missing Data)

  • 데이터 분석 시 값이 존재하지 않는 데이터

✅ 결측값 문제

  • 분석 데이터 손실 발생
  • 분석 결과 편향(Bias) 발생 가능

4️⃣ 결측 데이터 종류

유형 설명 예시
MCAR
(Missing Completely At Random)
· 완전 무작위 결측
· 결측 여부가 다른 변수와 관련 없음
센서 오류로 인한 데이터 누락
MAR
(Missing At Random)
· 다른 변수와 관련된 결측
· 결측 여부가 다른 변수와 관련 있음
특정 연령대에서 소득 응답 누락
NMAR
(Not Missing At Random)
· 결측 자체가 특정 패턴을 가짐
· 결측값 자체가 특정 이유로 발생
고소득자의 소득 미응답

5️⃣ 결측값 처리 방법

처리 방법 설명 대표 방법 / 절차
단순 대체법
(Simple Imputation)
결측값을 통계값으로 대체하는 방법 평균 대체
중앙값 대체
최빈값 대체
회귀 대체법
(Regression Imputation)
회귀 모델을 이용하여 결측값을 예측하여 대체 회귀 분석 기반 예측
Hot-deck 대체 유사한 특성을 가진 데이터의 값을 사용하여 결측값 대체 유사 데이터 값 활용
다중 대체법
(Multiple Imputation)
여러 번 결측값을 대체하여 분석 결과의 신뢰성을 높이는 방법 ① 대치 단계
② 분석 단계
③ 결합 단계

6️⃣ 데이터 이상치(Outlier)

✅ 이상치 정의

  • 정상 범위를 벗어난 비정상적인 데이터

🔹예시

  • 측정 오류
  • 입력 오류
  • 극단값

7️⃣ 이상치 발생 원인

유형 설명
입력 오류 데이터 입력 과정에서 발생하는 실수
측정 오류 측정 장비 문제로 발생하는 데이터 오류
실험 오류 실험 환경이나 과정에서 발생하는 오류
의도적 이상치 자기보고 오류 등 의도적으로 발생하는 이상치

8️⃣ 이상치 문제점

  1. 통계 분석 신뢰도 저하
  2. 평균 및 분산 왜곡
  3. 데이터 정규성 감소

9️⃣ 이상치 탐지 방법

  • 이상치는 단변량 / 다변량 방법으로 탐지
탐지 방법 설명 기준 / 특징
시각화 기반 탐지 데이터를 시각적으로 확인하여 이상치 탐지 Box Plot
Stem and Leaf Plot
Scatter Plot
Box Plot
(상자 그림)
사분위수를 이용하여 이상치 탐지 IQR = Q3 − Q1

하한 = Q1 − 1.5 × IQR
상한 = Q3 + 1.5 × IQR
Z-score 기반 탐지 평균과 표준편차를 이용한 표준화 기반 이상치 탐지 z = (x − μ) / σ

|z| > 2 → 이상치 후보
|z| > 3 → 이상치
DBSCAN 밀도 기반 클러스터링을 이용한
이상치 탐지
군집 밀도가 낮은 데이터 → 이상치
Isolation Forest 데이터를 분리하는 과정에서 이상치를 탐지 랜덤 트리 기반 알고리즘
이상치는 분리 경로가 짧음

🔟 이상치 처리 방법

🔹 대표 방법

  1. 제거
  2. 대체
  3. 변환
  4. 분석 모델에서 처리

📊 시험 포인트 정리

🔥 결측 데이터 유형

  • MCAR
  • MAR
  • NMAR

🔥 이상치 탐지

  • Box Plot
  • Z-score
  • Scatter Plot

🔥 이상치 기준

  • |Z| > 3

🔥 IQR 이상치 기준

  • Q1 − 1.5IQR
    Q3 + 1.5IQR

🔥 이상치 탐지 알고리즘

  • DBSCAN
  • Isolation Forest

📌 암기 핵심 요약

구분 핵심 내용
데이터 정제 분석 가능한 형태로 데이터 변환
결측값 데이터 값이 없는 상태
결측 유형 MCAR / MAR / NMAR
이상치 정상 범위를 벗어난 값
이상치 탐지 Box Plot / Z-score
이상치 알고리즘 DBSCAN / Isolation Forest





2026 이기적 빅데이터분석기사 필기 기본서
(저자: 나홍석, 배원성, 이건길, 이혜영 | 출판사: 영진닷컴)

※ 본 글은 위 교재를 참고하여 학습 목적으로 재정리한 내용입니다.