[이기적] K-Fold 교차검증 정리 (Cross Validation / LOOCV / Stratified K-Fold)

2026. 3. 13. 13:53Certifications/빅데이터분석기사 필기

1️⃣ 교차검증(Cross Validation)

✅ 개념

  • 모델의 성능을 안정적으로 평가하기 위해 데이터를 여러 번 나누어 검증하는 방법
  • 훈련 데이터와 테스트 데이터를 반복적으로 교차 사용하여 모델 성능을 평가

✅ 특징

  • 데이터 전체를 평가에 활용 가능
  • 모델의 과적합 방지
  • 모델 성능 평가의 신뢰도 향상
  • 모델의 일반화 성능 평가

🎯 포인트

  • 교차검증 = 데이터를 여러 번 나누어 반복 평가
  • 모델 일반화 성능 평가 목적

2️⃣ 홀드아웃 기법(Holdout Method)

  • 데이터를 훈련 데이터(Training)테스트 데이터(Test) 로 한 번만 분할하여 모델을 평가하는 방법

✅ 절차

  1. 데이터를 훈련 데이터와 테스트 데이터로 분할
  2. 훈련 데이터로 모델 학습
  3. 테스트 데이터로 성능 평가

✅ 특징

장점 단점
구현이 간단
계산 비용이 적음
데이터 분할 방식에 따라 성능 평가 결과가 크게 달라질 수 있음
데이터 전체를 평가에 활용하지 못함

🎯 포인트

  • Holdout = 1회 분할 평가
  • 데이터 분할에 따라 평가 결과 변동 가능

3️⃣ K-Fold 교차검증(K-Fold Cross Validation)

  • 데이터를 K개의 서브셋(Fold) 으로 나누어, 각 Fold를 한 번씩 검증 데이터로 사용하면서 모델 성능을 평가하는 방법

✅ 동작 과정

  1. 데이터를 K개의 동일 크기 Fold 로 분할
  2. K−1개 Fold → 훈련 데이터
  3. 1개 Fold → 검증 데이터
  4. 이 과정을 K번 반복
  5. K번의 평가 결과를 평균하여 최종 성능 계산

✅ 특징

  • 모든 데이터가 훈련과 검증에 모두 사용
  • 모델 성능 평가의 안정성 증가
  • 과적합 문제 완화

🎯 포인트

  • K번 반복 평가
  • 모든 데이터가 검증에 한 번씩 사용

4️⃣ 리브-원-아웃 교차검증 (LOOCV)

  • 데이터가 n개일 때 n개의 Fold로 교차검증 수행
  • 매번 1개의 데이터만 검증 데이터로 사용

✅ 특징

장점 단점
거의 모든 데이터를 학습에 사용
편향(Bias)이 작은 평가
계산 비용이 매우 큼
데이터 수가 많으면 비효율적

🎯 포인트

  • LOOCV = n개의 데이터 → n번 검증

5️⃣ 리브-P-아웃 교차검증 (LPOCV)

  • n개의 데이터 중 p개를 검증 데이터로 사용
  • 나머지 n-p개를 학습 데이터로 사용

🎯 포인트

  • LOOCV의 일반화된 형태

6️⃣ 계층별 K-Fold 교차검증(Stratified K-Fold)

  • 클래스 비율을 유지하면서 데이터를 K개의 Fold로 나누는 방법

✅ 사용 이유

  • 클래스 불균형(Class Imbalance) 데이터에서 단순 K-Fold 사용 시
  • 특정 Fold에 한 클래스만 포함될 수 있음

✅ 특징

  • 각 Fold가 전체 데이터와 유사한 클래스 분포 유지

🎯 포인트

  • 분류 문제에서 자주 사용
  • 클래스 비율 유지

7️⃣ K-Fold vs 계층별 K-Fold 비교

구분 K-Fold 교차검증 Stratified K-Fold
Fold 구성 무작위 분할 클래스 비율 유지
클래스 분포 불균형 발생 가능 동일 분포 유지
적용 분야 회귀 / 분류 주로 분류 문제

8️⃣ 교차검증 장단점

장점 단점
데이터 전체를 활용한 모델 평가
모델 성능 평가의 신뢰도 증가
과적합 방지
반복 학습으로 계산 비용 증가
데이터가 매우 큰 경우 시간 소요

📊 시험 포인트 정리

🔥 1. K-Fold 핵심 개념

  • 데이터를 K개의 Fold로 분할
  • K번 학습 + K번 검증
  • 성능 = 평균값

🔥 2. K-Fold 특징

  • 모든 데이터가 검증 데이터로 한 번씩 사용
  • 모델 일반화 성능 평가

🔥 3. LOOCV 특징

  • n개의 데이터 → n번 학습
  • 계산 비용 매우 큼

🔥 4. Stratified K-Fold 특징

  • 클래스 비율 유지
  • 분류 문제에서 중요

🔥 5. 시험 출제 포인트

  • K-Fold 과정 설명 문제
  • LOOCV 특징
  • Stratified K-Fold 목적
  • Holdout vs K-Fold 차이

📌 암기 핵심 요약

  • Holdout → 1회 평가
  • K-Fold → K번 평가 평균
  • LOOCV → n번 평가
  • Stratified K-Fold → 클래스 비율 유지





2026 이기적 빅데이터분석기사 필기 기본서
(저자: 나홍석, 배원성, 이건길, 이혜영 | 출판사: 영진닷컴)

※ 본 글은 위 교재를 참고하여 학습 목적으로 재정리한 내용입니다.