[이기적] CRISP-DM 분석 방법론 정리 (KDD / SEMMA 비교)

2026. 3. 7. 05:23Certifications/빅데이터분석기사 필기

1️⃣ CRISP-DM 분석 방법론

✅ 개념

  • CRISP-DM (Cross Industry Standard Process for Data Mining)
  • 데이터 마이닝 프로젝트 수행을 위한 표준 분석 프로세스 모델

🔹 특징

  • 산업 분야와 관계없이 적용 가능
  • 데이터 분석 프로젝트를 체계적으로 수행하기 위한 표준 방법론
  • 분석 과정이 반복적(Iterative) 구조

🎯 포인트

  • 데이터 마이닝 표준 프로세스
  • 반복적 분석 구조
  • 산업 공통 분석 방법론

✅ CRISP-DM 6단계

단계 설명
업무 이해
(Business Understanding)
비즈니스 목표 및 문제 정의
데이터 이해
(Data Understanding)
데이터 수집 및 데이터 특성 파악
데이터 준비
(Data Preparation)
분석 데이터 준비
모델링
(Modeling)
모델 구축
평가
(Evaluation)
모델 평가
전개
(Deployment)
분석 결과 적용

2️⃣ CRISP-DM 단계 상세

✅ 1. 비즈니스 이해 (Business Understanding)

  • 프로젝트의 비즈니스 목적과 문제 정의

🔹 주요 활동

  • 비즈니스 목표 정의
  • 데이터 마이닝 목표 설정
  • 프로젝트 계획 수립

✅ 2. 데이터 이해 (Data Understanding)

  • 분석을 위한 데이터를 수집하고 탐색

🔹 주요 활동

  • 초기 데이터 수집
  • 데이터 탐색
  • 데이터 품질 확인
  • 데이터 특성 파악

✅ 3. 데이터 준비 (Data Preparation)

  • 분석 모델에 사용할 최종 데이터셋 생성

🔹 주요 활동

  • 데이터 선택
  • 데이터 정제
  • 데이터 통합
  • 데이터 변환

✅ 4. 모델링 (Modeling)

  • 데이터 마이닝 알고리즘을 적용하여 분석 모델 구축

🔹 주요 활동

  • 모델링 기법 선택
  • 모델 생성
  • 모델 테스트 설계

✅ 5. 평가 (Evaluation)

  • 모델이 비즈니스 목적에 적합한지 평가

🔹 주요 활동

  • 분석 결과 평가
  • 모델 검증
  • 결과 해석

✅ 6. 전개 (Deployment)

  • 분석 결과를 실제 업무 환경에 적용

🔹 주요 활동

  • 결과 보고
  • 시스템 적용
  • 유지 관리

✅ 전개 단계 주요 운영 활동

  • 분석 모델을 실제 환경에 적용한 이후에는 지속적인 운영 관리가 필요
활동 설명
분석결과 활용 계획 수립 분석 결과를 업무에 어떻게 반영할지 계획 수립
분석결과 적용 및 보고 분석 모델을 업무 시스템에 적용하고 성과 측정
분석모형 모니터링 데이터 변화에 따른 모델 성능 지속 확인
분석모형 리모델링 모델 성능 저하 시 알고리즘 개선 및 재학습

🎯 포인트

  • Deployment 단계 = 모니터링 + 리모델링

3️⃣ KDD 분석 방법론

✅ KDD 개념

  • KDD (Knowledge Discovery in Database)
  • 데이터베이스에서 유용한 지식을 발견하는 과정
  • 데이터에서 패턴을 찾는 과정을 9가지 프로세스로 제시하며, 실제 분석 절차는 이를 요약한 5단계로 진행된다.

✅ KDD 핵심 단계

9가지 프로세스 5단계 설명
데이터 이해
(Data Understanding)
데이터 선택
(Data Selection)
데이터의 특성과 구조를 파악
데이터 선택
(Data Selection)
분석 대상 데이터 선택
데이터 정제
(Data Cleaning)
데이터 전처리
(Data Preprocessing)
노이즈 제거 및 결측치 처리
데이터 통합
(Data Integration)
여러 데이터 소스를 통합
데이터 변환
(Data Transformation)
데이터 변환
(Data Transformation)
분석에 적합한 형태로 데이터 변환
데이터 마이닝
(Data Mining)
데이터 마이닝
(Data Mining)
알고리즘을 활용하여 패턴 발견
패턴 평가
(Pattern Evaluation)
결과 해석
(Interpretation)
발견된 패턴의 유효성 평가
지식 표현
(Knowledge Presentation)
분석 결과를 이해 가능한 형태로 표현

4️⃣ SEMMA 분석 방법론

✅ SEMMA 개념

  • SAS에서 제안한 데이터 마이닝 분석 방법론

✅ SEMMA 단계

단계 설명
표본 추출 (Sample) 데이터 추출
탐색 (Explore) 데이터 탐색
수정 (Modify) 데이터 변환
모델링 (Model) 모델 구축
평가 (Assess) 모델 평가

5️⃣ CRISP-DM / KDD / SEMMA 비교

구분 CRISP-DM KDD SEMMA
개발 주체 SPSS 학계 SAS
분석 관점 비즈니스 중심 데이터 중심 모델링 중심
단계 수 6단계 5단계 5단계
대표 단계 업무 이해
(Business Understanding)
- -
데이터 이해
(Data Understanding)
데이터 선택
(Data Selection)
표본 추출
(Sample)
데이터 탐색
(Explore)
데이터 준비
(Data Preparation)
데이터 전처리
(Data Preprocessing)
데이터 수정
(Modify)
데이터 변환
(Data Transformation)
모델링
(Modeling)
데이터 마이닝
(Data Mining)
모델링
(Model)
평가
(Evaluation)
결과 해석
(Interpretation / Evaluation)
평가
(Assess)
전개
(Deployment)
- -
핵심 특징 비즈니스 이해부터 결과 적용까지 전 과정 포함 데이터베이스에서 지식을 발견하는 과정 중심 SAS 기반 모델 구축·평가 중심 방법론

📊 시험 포인트 정리

🔥 CRISP-DM 6단계 순서

  1. Business Understanding
  2. Data Understanding
  3. Data Preparation
  4. Modeling
  5. Evaluation
  6. Deployment

🔥 SEMMA 5단계

  1. Sample
  2. Explore
  3. Modify
  4. Model
  5. Assess

👉 SAS 기반 데이터 분석 방법론


🔥 KDD 핵심 단계

  1. 데이터 선택
  2. 데이터 전처리
  3. 데이터 변환
  4. 데이터 마이닝
  5. 결과 해석

🔥 Deployment 단계 핵심

  • 분석결과 활용 계획
  • 분석결과 적용
  • 모니터링
  • 리모델링





2026 이기적 빅데이터분석기사 필기 기본서
(저자: 나홍석, 배원성, 이건길, 이혜영 | 출판사: 영진닷컴)

※ 본 글은 위 교재를 참고하여 학습 목적으로 재정리한 내용입니다.