[이기적] 과적합과 과소적합 정리 (Overfitting / Underfitting)

2026. 3. 14. 10:22Certifications/빅데이터분석기사 필기

1️⃣ 과적합(Overfitting)

✅ 개념

  • 모델이 훈련 데이터에 지나치게 맞춰 학습된 상태
  • 훈련 데이터에서는 높은 성능을 보이지만 새로운 데이터에서는 성능이 낮음

🔹 특징

  • 훈련 정확도 높음
  • 테스트 정확도 낮음
  • 데이터의 노이즈까지 학습

🎯 포인트

  • 훈련 성능 높음 + 테스트 성능 낮음 → 과적합

2️⃣ 과소적합(Underfitting)

✅ 개념

  • 모델이 데이터의 패턴을 충분히 학습하지 못한 상태로 훈련 데이터와 테스트 데이터 모두에서 성능이 낮은 상태

🔹 특징

  • 훈련 정확도 낮음
  • 테스트 정확도 낮음
  • 모델이 너무 단순

🎯 포인트

  • 훈련 / 테스트 성능 모두 낮음 → 과소적합

3️⃣ 과적합 vs 과소적합 비교

구분 과적합 (Overfitting) 과소적합 (Underfitting)
훈련 데이터 성능 높음 낮음
테스트 데이터 성능 낮음 낮음
모델 특성 모델 복잡도 높음 모델 단순
해결 방법 정규화 / Dropout 모델 복잡도 증가

4️⃣ 과적합 방지 방법

✅ 1. 모델 복잡도 조절

  • 모델이 너무 복잡하면 훈련 데이터에 과도하게 적합
  • 모델 복잡도를 조절하여 일반화 성능 개선

🔹 방법

  • 훈련 데이터 증가
  • 모델 단순화
  • 규제 적용

✅ 2. 드롭아웃 (Dropout)

  • 신경망 학습 시 일부 뉴런을 임의로 제거하는 방법

🔹 특징

  • 특정 뉴런 의존도 감소
  • 모델 일반화 성능 향상

🔹 동작 방식

  • 학습 시 : 일부 뉴런 비활성화
  • 테스트 시 : 모든 뉴런 사용

🎯 포인트

  • 신경망 과적합 방지 기법

✅ 3. 가중치 규제 (Regularization)

  • 모델 학습 시 큰 가중치에 패널티를 부여하여 과적합을 방지하는 방법

🔹 대표 방법

  • L1 규제
  • L2 규제

✅ L1 vs L2 규제 비교

구분 L1 규제 L2 규제
패널티 방식 가중치 절댓값 가중치 제곱
모델 특성 희소 모델 생성 가중치 크기 축소
대표 모델 Lasso Ridge
목적 변수 선택 과적합 방지

5️⃣ Bias-Variance Tradeoff

  • 머신러닝 모델에서는 편향(Bias)과 분산(Variance) 사이의 균형이 중요하다.
상태 특징
과적합 분산(Variance) 증가
과소적합 편향(Bias) 증가

🎯 포인트

  • Bias ↑ → 과소적합
  • Variance ↑ → 과적합

📊 시험 포인트 정리

🔥 1. 과적합 vs 과소적합 특징

  • 과적합 → 훈련 성능 높음 / 테스트 성능 낮음
  • 과소적합 → 훈련 / 테스트 모두 성능 낮음

🔥 2. 과적합 방지 방법

  • Regularization
  • Dropout
  • 데이터 증가
  • 모델 복잡도 조절

🔥 3. L1 vs L2 차이

규제 특징
L1 규제 변수 선택 (희소 모델 생성)
L2 규제 가중치 크기 축소

🔥 4. Bias-Variance Tradeoff

상태 특징
과적합 (Overfitting) 분산(Variance) 증가
과소적합 (Underfitting) 편향(Bias) 증가

📌 암기 핵심 요약

  • Variance ↑ → Overfitting
  • Bias ↑ → Underfitting

👉 이를 해결하기 위해 다음과 같은 방법으로 모델의 일반화 성능을 향상시킨다.

  • 정규화(Regularization)
  • Dropout
  • 모델 복잡도 조절
  • 하이퍼파라미터 튜닝





2026 이기적 빅데이터분석기사 필기 기본서
(저자: 나홍석, 배원성, 이건길, 이혜영 | 출판사: 영진닷컴)

※ 본 글은 위 교재를 참고하여 학습 목적으로 재정리한 내용입니다.