1️⃣ 앙상블(Ensemble Learning)
✅ 정의
- 여러 개의 모델을 결합하여 예측 성능과 일반화 성능을 향상시키는 기법
- 단일 모델보다 더 안정적인 예측 결과를 얻기 위해 사용됨
🎯 포인트
- 앙상블 = 여러 모델 결합
- 성능 향상 + 일반화 성능 개선
- 분류 / 회귀 모두 사용 가능
✅ 앙상블의 필요성 ⭐
| 문제 |
설명 |
해결 방법 |
| 높은 편향(Bias) |
모델이 단순하여 패턴 학습 부족 |
Boosting |
| 높은 분산(Variance) |
데이터 변화에 민감 |
Bagging |
✅ 앙상블 대표 방식
| 구분 |
설명 |
대표 알고리즘 |
| Bagging |
여러 모델을 독립적으로 학습 후 결합 |
Random Forest |
| Boosting |
오차를 보완하며 순차적으로 학습 |
AdaBoost Gradient Boosting |
2️⃣ 배깅(Bagging)
✅ 정의
- Bootstrap 샘플링을 통해 여러 데이터를 생성하고
각 모델을 독립적으로 학습한 뒤 결과를 결합하는 기법
🎯 포인트
- Bagging = Bootstrap + 병렬 학습
- 결과 결합 = Voting / Averaging
- 목적 = Variance 감소
✅ 동작 과정
| 단계 |
설명 |
| 1 |
Bootstrap으로 데이터 샘플 생성 |
| 2 |
각 샘플로 모델 독립 학습 |
| 3 |
예측 결과 수집 |
| 4 |
Voting / Averaging으로 결과 결합 |
3️⃣ 부트스트랩(Bootstrap Sampling)
✅ 정의
- 데이터에서 중복을 허용하여 샘플을 추출하는 방법 (복원추출)
🎯 포인트
- Bootstrap = 중복 허용 샘플링
- Bagging의 핵심 요소
✅ Bootstrap vs Bagging
| 구분 |
설명 |
| Bootstrap |
샘플링 기법 (중복 허용) |
| Bagging |
Bootstrap 기반 앙상블 기법 |
4️⃣ 랜덤 포레스트(Random Forest)
✅ 개념
- 여러 개의 의사결정나무를 생성하여
투표 또는 평균으로 결과를 결합하는 배깅 기반 알고리즘
🎯 포인트
- Random Forest = Bagging 기반
- 특징 = Bootstrap + 변수 랜덤 선택
✅ 특징
| 특징 |
설명 |
| 데이터 |
Bootstrap 샘플 사용 |
| 변수 선택 |
랜덤 변수 선택 |
| 결과 결합 |
Voting / Averaging |
| 효과 |
과적합 완화 |
5️⃣ 부스팅(Boosting)
✅ 정의
- 이전 모델의 오차를 보완하도록
다음 모델을 순차적으로 학습시키는 기법
🎯 포인트
- Boosting = 순차 학습
- 오차 보완 학습
- 목적 = Bias 감소
✅ 동작 과정
| 단계 |
설명 |
| 1 |
초기 모델(Weak Learner) 학습 |
| 2 |
오차 데이터에 가중치 부여 |
| 3 |
다음 모델이 오차 보완 |
| 4 |
모델 결합하여 최종 결과 생성 |
6️⃣ Weak Learner vs Strong Learner
| 구분 |
Weak Learner |
Strong Learner |
| 정의 |
성능이 낮은 모델 |
성능이 높은 모델 |
| 특징 |
단순, 빠름 |
복잡, 정확 |
| 관계 |
여러 개 결합 |
Boosting 결과 |
7️⃣ Voting / Averaging
| 방식 |
사용 |
설명 |
| Voting |
분류 |
다수결 |
| Averaging |
회귀 |
평균값 |
8️⃣ Bias vs Variance
| 기법 |
효과 |
설명 |
| Bagging |
Variance 감소 |
예측 변동성 감소 |
| Boosting |
Bias 감소 |
오차 보완 학습 |
9️⃣ 과적합(Overfitting)
| 구분 |
Bagging |
Boosting |
| 영향 |
완화 |
발생 가능 |
| 이유 |
평균화 |
오차 반복 학습 |
🔟 최종 핵심 비교
| 구분 |
Bagging |
Boosting |
| 학습 |
병렬 |
순차 |
| 핵심 |
Bootstrap |
오차 보완 |
| 목적 |
Variance 감소 |
Bias 감소 |
📊 시험 포인트 정리
🔥 핵심 연결
- Bagging = Bootstrap 기반
- Random Forest = Bagging
- Boosting = 오차 보완
- Boosting = Weak Learner
- Bagging = Variance 감소
- Boosting = Bias 감소
📌 암기 핵심 요약
Bagging은 Bootstrap 기반 병렬 학습으로 분산을 줄이고,
Boosting은 오차를 보완하는 순차 학습으로 편향을 줄인다.