[이기적] CRISP-DM 분석 방법론 정리 (KDD / SEMMA 비교)
2026. 3. 7. 05:23ㆍCertifications/빅데이터분석기사 필기
1️⃣ CRISP-DM 분석 방법론
✅ 개념
- CRISP-DM (Cross Industry Standard Process for Data Mining)
- 데이터 마이닝 프로젝트 수행을 위한 표준 분석 프로세스 모델
🔹 특징
- 산업 분야와 관계없이 적용 가능
- 데이터 분석 프로젝트를 체계적으로 수행하기 위한 표준 방법론
- 분석 과정이 반복적(Iterative) 구조
🎯 포인트
- 데이터 마이닝 표준 프로세스
- 반복적 분석 구조
- 산업 공통 분석 방법론
✅ CRISP-DM 6단계
| 단계 | 설명 |
|---|---|
|
업무 이해 (Business Understanding) |
비즈니스 목표 및 문제 정의 |
|
데이터 이해 (Data Understanding) |
데이터 수집 및 데이터 특성 파악 |
|
데이터 준비 (Data Preparation) |
분석 데이터 준비 |
|
모델링 (Modeling) |
모델 구축 |
|
평가 (Evaluation) |
모델 평가 |
|
전개 (Deployment) |
분석 결과 적용 |
2️⃣ CRISP-DM 단계 상세
✅ 1. 비즈니스 이해 (Business Understanding)
- 프로젝트의 비즈니스 목적과 문제 정의
🔹 주요 활동
- 비즈니스 목표 정의
- 데이터 마이닝 목표 설정
- 프로젝트 계획 수립
✅ 2. 데이터 이해 (Data Understanding)
- 분석을 위한 데이터를 수집하고 탐색
🔹 주요 활동
- 초기 데이터 수집
- 데이터 탐색
- 데이터 품질 확인
- 데이터 특성 파악
✅ 3. 데이터 준비 (Data Preparation)
- 분석 모델에 사용할 최종 데이터셋 생성
🔹 주요 활동
- 데이터 선택
- 데이터 정제
- 데이터 통합
- 데이터 변환
✅ 4. 모델링 (Modeling)
- 데이터 마이닝 알고리즘을 적용하여 분석 모델 구축
🔹 주요 활동
- 모델링 기법 선택
- 모델 생성
- 모델 테스트 설계
✅ 5. 평가 (Evaluation)
- 모델이 비즈니스 목적에 적합한지 평가
🔹 주요 활동
- 분석 결과 평가
- 모델 검증
- 결과 해석
✅ 6. 전개 (Deployment)
- 분석 결과를 실제 업무 환경에 적용
🔹 주요 활동
- 결과 보고
- 시스템 적용
- 유지 관리
✅ 전개 단계 주요 운영 활동
- 분석 모델을 실제 환경에 적용한 이후에는 지속적인 운영 관리가 필요
| 활동 | 설명 |
|---|---|
| 분석결과 활용 계획 수립 | 분석 결과를 업무에 어떻게 반영할지 계획 수립 |
| 분석결과 적용 및 보고 | 분석 모델을 업무 시스템에 적용하고 성과 측정 |
| 분석모형 모니터링 | 데이터 변화에 따른 모델 성능 지속 확인 |
| 분석모형 리모델링 | 모델 성능 저하 시 알고리즘 개선 및 재학습 |
🎯 포인트
- Deployment 단계 = 모니터링 + 리모델링
3️⃣ KDD 분석 방법론
✅ KDD 개념
- KDD (Knowledge Discovery in Database)
- 데이터베이스에서 유용한 지식을 발견하는 과정
- 데이터에서 패턴을 찾는 과정을 9가지 프로세스로 제시하며, 실제 분석 절차는 이를 요약한 5단계로 진행된다.
✅ KDD 핵심 단계
| 9가지 프로세스 | 5단계 | 설명 |
|---|---|---|
|
데이터 이해 (Data Understanding) |
데이터 선택 (Data Selection) |
데이터의 특성과 구조를 파악 |
|
데이터 선택 (Data Selection) |
분석 대상 데이터 선택 | |
|
데이터 정제 (Data Cleaning) |
데이터 전처리 (Data Preprocessing) |
노이즈 제거 및 결측치 처리 |
|
데이터 통합 (Data Integration) |
여러 데이터 소스를 통합 | |
|
데이터 변환 (Data Transformation) |
데이터 변환 (Data Transformation) |
분석에 적합한 형태로 데이터 변환 |
|
데이터 마이닝 (Data Mining) |
데이터 마이닝 (Data Mining) |
알고리즘을 활용하여 패턴 발견 |
|
패턴 평가 (Pattern Evaluation) |
결과 해석 (Interpretation) |
발견된 패턴의 유효성 평가 |
|
지식 표현 (Knowledge Presentation) |
분석 결과를 이해 가능한 형태로 표현 |
4️⃣ SEMMA 분석 방법론
✅ SEMMA 개념
- SAS에서 제안한 데이터 마이닝 분석 방법론
✅ SEMMA 단계
| 단계 | 설명 |
|---|---|
| 표본 추출 (Sample) | 데이터 추출 |
| 탐색 (Explore) | 데이터 탐색 |
| 수정 (Modify) | 데이터 변환 |
| 모델링 (Model) | 모델 구축 |
| 평가 (Assess) | 모델 평가 |
5️⃣ CRISP-DM / KDD / SEMMA 비교
| 구분 | CRISP-DM | KDD | SEMMA |
|---|---|---|---|
| 개발 주체 | SPSS | 학계 | SAS |
| 분석 관점 | 비즈니스 중심 | 데이터 중심 | 모델링 중심 |
| 단계 수 | 6단계 | 5단계 | 5단계 |
| 대표 단계 |
업무 이해 (Business Understanding) |
- | - |
|
데이터 이해 (Data Understanding) |
데이터 선택 (Data Selection) |
표본 추출 (Sample) |
|
|
데이터 탐색 (Explore) |
|||
|
데이터 준비 (Data Preparation) |
데이터 전처리 (Data Preprocessing) |
데이터 수정 (Modify) |
|
|
데이터 변환 (Data Transformation) |
|||
|
모델링 (Modeling) |
데이터 마이닝 (Data Mining) |
모델링 (Model) |
|
|
평가 (Evaluation) |
결과 해석 (Interpretation / Evaluation) |
평가 (Assess) |
|
|
전개 (Deployment) |
- | - | |
| 핵심 특징 | 비즈니스 이해부터 결과 적용까지 전 과정 포함 | 데이터베이스에서 지식을 발견하는 과정 중심 | SAS 기반 모델 구축·평가 중심 방법론 |
📊 시험 포인트 정리
🔥 CRISP-DM 6단계 순서
- Business Understanding
- Data Understanding
- Data Preparation
- Modeling
- Evaluation
- Deployment
🔥 SEMMA 5단계
- Sample
- Explore
- Modify
- Model
- Assess
👉 SAS 기반 데이터 분석 방법론
🔥 KDD 핵심 단계
- 데이터 선택
- 데이터 전처리
- 데이터 변환
- 데이터 마이닝
- 결과 해석
🔥 Deployment 단계 핵심
- 분석결과 활용 계획
- 분석결과 적용
- 모니터링
- 리모델링

2026 이기적 빅데이터분석기사 필기 기본서
(저자: 나홍석, 배원성, 이건길, 이혜영 | 출판사: 영진닷컴)
※ 본 글은 위 교재를 참고하여 학습 목적으로 재정리한 내용입니다.
'Certifications > 빅데이터분석기사 필기' 카테고리의 다른 글
| [이기적] 데이터 전처리 개요 정리 (데이터 정제 / 결측값 처리 / 이상치 탐지) (1) | 2026.03.08 |
|---|---|
| [이기적] 데이터 분석 절차 정리 (데이터 분석 기획 / 분석 문제 정의 / Top-Down / Bottom-Up / 분석 준비도 / 분석 성숙도) (0) | 2026.03.07 |
| [이기적] 빅데이터 플랫폼 구조 정리 (플랫폼 계층 구조 / 플랫폼 개념) (0) | 2026.03.06 |
| [이기적] 빅데이터 3V·5V 특징 정리 (Volume·Variety·Velocity / Veracity·Value) (0) | 2026.03.05 |
| [이기적] 빅데이터 개요와 특징 정리 (3V·5V / 데이터 유형 / 데이터 웨어하우스 / 데이터 사이언스) (0) | 2026.03.05 |