[이기적] K-Fold 교차검증 정리 (Cross Validation / LOOCV / Stratified K-Fold)
2026. 3. 13. 13:53ㆍCertifications/빅데이터분석기사 필기
1️⃣ 교차검증(Cross Validation)
✅ 개념
- 모델의 성능을 안정적으로 평가하기 위해 데이터를 여러 번 나누어 검증하는 방법
- 훈련 데이터와 테스트 데이터를 반복적으로 교차 사용하여 모델 성능을 평가
✅ 특징
- 데이터 전체를 평가에 활용 가능
- 모델의 과적합 방지
- 모델 성능 평가의 신뢰도 향상
- 모델의 일반화 성능 평가
🎯 포인트
- 교차검증 = 데이터를 여러 번 나누어 반복 평가
- 모델 일반화 성능 평가 목적
2️⃣ 홀드아웃 기법(Holdout Method)
- 데이터를 훈련 데이터(Training) 와 테스트 데이터(Test) 로 한 번만 분할하여 모델을 평가하는 방법
✅ 절차
- 데이터를 훈련 데이터와 테스트 데이터로 분할
- 훈련 데이터로 모델 학습
- 테스트 데이터로 성능 평가
✅ 특징
| 장점 | 단점 |
|---|---|
| 구현이 간단함 계산 비용이 적음 |
데이터 분할 방식에 따라 성능 평가 결과가 크게 달라질 수 있음 데이터 전체를 평가에 활용하지 못함 |
🎯 포인트
- Holdout = 1회 분할 평가
- 데이터 분할에 따라 평가 결과 변동 가능
3️⃣ K-Fold 교차검증(K-Fold Cross Validation)
- 데이터를 K개의 서브셋(Fold) 으로 나누어, 각 Fold를 한 번씩 검증 데이터로 사용하면서 모델 성능을 평가하는 방법
✅ 동작 과정
- 데이터를 K개의 동일 크기 Fold 로 분할
- K−1개 Fold → 훈련 데이터
- 1개 Fold → 검증 데이터
- 이 과정을 K번 반복
- K번의 평가 결과를 평균하여 최종 성능 계산
✅ 특징
- 모든 데이터가 훈련과 검증에 모두 사용
- 모델 성능 평가의 안정성 증가
- 과적합 문제 완화
🎯 포인트
- K번 반복 평가
- 모든 데이터가 검증에 한 번씩 사용
4️⃣ 리브-원-아웃 교차검증 (LOOCV)
- 데이터가 n개일 때 n개의 Fold로 교차검증 수행
- 매번 1개의 데이터만 검증 데이터로 사용
✅ 특징
| 장점 | 단점 |
|---|---|
|
거의 모든 데이터를 학습에 사용 편향(Bias)이 작은 평가 |
계산 비용이 매우 큼 데이터 수가 많으면 비효율적 |
🎯 포인트
- LOOCV = n개의 데이터 → n번 검증
5️⃣ 리브-P-아웃 교차검증 (LPOCV)
- n개의 데이터 중 p개를 검증 데이터로 사용
- 나머지 n-p개를 학습 데이터로 사용
🎯 포인트
- LOOCV의 일반화된 형태
6️⃣ 계층별 K-Fold 교차검증(Stratified K-Fold)
- 클래스 비율을 유지하면서 데이터를 K개의 Fold로 나누는 방법
✅ 사용 이유
- 클래스 불균형(Class Imbalance) 데이터에서 단순 K-Fold 사용 시
- 특정 Fold에 한 클래스만 포함될 수 있음
✅ 특징
- 각 Fold가 전체 데이터와 유사한 클래스 분포 유지
🎯 포인트
- 분류 문제에서 자주 사용
- 클래스 비율 유지
7️⃣ K-Fold vs 계층별 K-Fold 비교
| 구분 | K-Fold 교차검증 | Stratified K-Fold |
|---|---|---|
| Fold 구성 | 무작위 분할 | 클래스 비율 유지 |
| 클래스 분포 | 불균형 발생 가능 | 동일 분포 유지 |
| 적용 분야 | 회귀 / 분류 | 주로 분류 문제 |
8️⃣ 교차검증 장단점
| 장점 | 단점 |
|---|---|
|
데이터 전체를 활용한 모델 평가 모델 성능 평가의 신뢰도 증가 과적합 방지 |
반복 학습으로 계산 비용 증가 데이터가 매우 큰 경우 시간 소요 |
📊 시험 포인트 정리
🔥 1. K-Fold 핵심 개념
- 데이터를 K개의 Fold로 분할
- K번 학습 + K번 검증
- 성능 = 평균값
🔥 2. K-Fold 특징
- 모든 데이터가 검증 데이터로 한 번씩 사용
- 모델 일반화 성능 평가
🔥 3. LOOCV 특징
- n개의 데이터 → n번 학습
- 계산 비용 매우 큼
🔥 4. Stratified K-Fold 특징
- 클래스 비율 유지
- 분류 문제에서 중요
🔥 5. 시험 출제 포인트
- K-Fold 과정 설명 문제
- LOOCV 특징
- Stratified K-Fold 목적
- Holdout vs K-Fold 차이
📌 암기 핵심 요약
- Holdout → 1회 평가
- K-Fold → K번 평가 평균
- LOOCV → n번 평가
- Stratified K-Fold → 클래스 비율 유지

2026 이기적 빅데이터분석기사 필기 기본서
(저자: 나홍석, 배원성, 이건길, 이혜영 | 출판사: 영진닷컴)
※ 본 글은 위 교재를 참고하여 학습 목적으로 재정리한 내용입니다.
'Certifications > 빅데이터분석기사 필기' 카테고리의 다른 글
| [이기적] 데이터 시각화 개요 (데이터 시각화 개념 + 그래프 종류 총정리) (0) | 2026.03.14 |
|---|---|
| [이기적] 과적합과 과소적합 정리 (Overfitting / Underfitting) (0) | 2026.03.14 |
| [이기적] 비모수 검정 정리 (Wilcoxon / Mann-Whitney / Kruskal-Wallis / Friedman) (0) | 2026.03.13 |
| [이기적] 베이즈 기법 정리 (베이즈 정리 / 사전확률 / 사후확률 / 나이브 베이즈) (0) | 2026.03.13 |
| [이기적] 시계열 분석(Time Series Analysis) 핵심 정리 (AR / MA / ARMA / ARIMA) (0) | 2026.03.13 |