[이기적] 연관분석(Association Analysis) 정리 (지지도·신뢰도·향상도·Apriori 알고리즘)
2026. 3. 13. 03:38ㆍCertifications/빅데이터분석기사 필기
1️⃣ 연관분석(Association Analysis)
✅ 개념
- 두 개 이상의 항목(Item) 간의 연관성을 분석하는 기법
- 대량의 데이터에서 패턴, 규칙, 관계를 발견하는 탐색적 데이터 분석 방법
- 주로 마케팅, 추천 시스템, 고객 구매 패턴 분석 등에 활용됨
🎯 포인트
- 항목 간 동시 발생 패턴 분석
- 장바구니 분석(Market Basket Analysis) 에 활용
- 데이터 마이닝 핵심 기법
✅ 장바구니 분석(Market Basket Analysis)
- 고객의 구매 데이터에서 상품 간 연관 관계를 분석하는 방법
- 어떤 상품이 함께 구매되는지 패턴을 발견
🔹 예시
- 빵 → 우유
- 기저귀 → 맥주
🔹 활용 분야
- 추천 시스템
- 상품 진열 전략
- 마케팅 전략
- 교차 판매(Cross Selling)
2️⃣ 연관규칙(Association Rule)
- 연관분석은 if → then 형태의 규칙으로 표현
A → B
→ A를 구매한 고객은 B도 구매할 가능성이 높다
🔹 구성
| 구성요소 | 의미 | 예시 |
|---|---|---|
| Antecedent | 조건 (if 부분) | 빵 |
| Consequent | 결과 (then 부분) | 우유 |
3️⃣ 연관분석 평가 지표
- 연관규칙의 강도를 평가하기 위해 3가지 지표를 사용
| 지표 | 의미 | 공식 | 해석 |
|---|---|---|---|
| Support | 전체 거래 중 A와 B가 함께 발생한 비율 |
P(A ∩ B) | 규칙의 빈도 |
| Confidence | A가 발생했을 때 B가 발생할 확률 |
P(A ∩ B) / P(A) | 규칙의 신뢰성 |
| Lift | 두 항목 간 연관성 판단 | P(A ∩ B) / (P(A)P(B)) | 1보다 크면 양의 상관 |
✅ 1. 지지도(Support)
- 전체 거래 중 A와 B가 동시에 발생한 비율
Support(A → B) = P(A ∩ B)
Support(A → B) = (A와 B가 동시에 발생한 거래 수) / (전체 거래 수)
🔹 예시
- 전체 거래 100
- 빵과 우유 함께 구매 20
Support = 20 / 100 = 0.2
✅ 2. 신뢰도(Confidence)
- A가 발생했을 때 B가 함께 발생할 확률
Confidence(A → B) = P(A ∩ B) / P(A)
🔹 예시
- 빵 구매 고객 40명
- 빵 + 우유 구매 20명
Confidence = 20 / 40 = 0.5
✅ 3. 향상도(Lift)
- A와 B가 독립적인지 여부 판단
Lift(A → B) = P(A ∩ B) / (P(A)P(B))
🔹 판단 기준
| Lift 값 | 의미 |
|---|---|
| Lift = 1 | 독립 |
| Lift > 1 | 양의 상관관계 |
| Lift < 1 | 음의 상관관계 |
4️⃣ Apriori 알고리즘
✅ 개념
- 연관규칙을 생성하기 위해 빈발 항목집합을 찾는 알고리즘
- 최소 지지도(min support) 기준으로 규칙 생성
✅ Apriori 핵심 원리
- Apriori Property
어떤 항목집합이 빈발하면
그 부분집합(subset) 도 반드시 빈발하다
{A,B,C}가 빈발 → {A,B}, {A,C}, {B,C}도 빈발
✅ Apriori 알고리즘 과정
- 최소 지지도 설정
- 빈발 항목집합(Frequent Itemset) 생성
- 비빈발 항목집합 제거 (Pruning)
- 연관규칙 생성
- 최소 신뢰도 기준으로 필터링
✅ 특징
- 모든 조합 탐색 대신 빈발 항목집합만 탐색
- 가지치기(pruning) 활용
5️⃣ 연관분석의 장단점
연관분석의 장단점
| 장점 | 단점 |
|---|---|
| 분석 결과가 이해하기 쉽다 | 항목이 많을수록 연산량 증가 |
| 마케팅 전략 수립에 활용 가능 | 의미 없는 규칙이 많이 생성될 수 있음 |
| 추천 시스템에 적용 가능 | 결과 해석을 위한 사전 분석 필요 |
📊 시험 포인트 정리
🔥 1. 연관분석 핵심 공식 ⭐
Support(A→B) = P(A∩B)
Confidence(A→B) = P(A∩B) / P(A)
Lift(A→B) = P(A∩B) / (P(A)P(B))🔥 2. Lift 해석 문제 ⭐
| Lift 값 | 의미 |
|---|---|
| Lift = 1 | 독립 |
| Lift > 1 | 양의 상관관계 |
| Lift < 1 | 음의 상관관계 |
🔥 3. Apriori 특징 ⭐
- 최소 지지도 사용
- 빈발 항목집합 기반
- 가지치기(pruning)
🔥 4. 장바구니 분석 = 연관분석
- Market Basket Analysis
- Association Analysis
- Association Rule Mining
👉 시험에서 위 표현이 모두 같은 의미
📌 암기 핵심 요약
| 항목 | 내용 |
|---|---|
| 분석 목적 | 항목 간 연관 규칙 발견 |
| 대표 지표 | Support / Confidence / Lift |
| 알고리즘 | Apriori |
| 활용 | 장바구니 분석 (Market Basket Analysis) |

2026 이기적 빅데이터분석기사 필기 기본서
(저자: 나홍석, 배원성, 이건길, 이혜영 | 출판사: 영진닷컴)
※ 본 글은 위 교재를 참고하여 학습 목적으로 재정리한 내용입니다.
'Certifications > 빅데이터분석기사 필기' 카테고리의 다른 글
| [이기적] 베이즈 기법 정리 (베이즈 정리 / 사전확률 / 사후확률 / 나이브 베이즈) (0) | 2026.03.13 |
|---|---|
| [이기적] 시계열 분석(Time Series Analysis) 핵심 정리 (AR / MA / ARMA / ARIMA) (0) | 2026.03.13 |
| [이기적] 군집분석(Clustering) 완전 정리 (K-means, 계층적 군집, DBSCAN 핵심 개념) (0) | 2026.03.13 |
| [이기적] SVM(서포트 벡터 머신) 핵심 정리 (초평면·마진·커널트릭) (0) | 2026.03.13 |
| [이기적] 인공신경망(ANN) 완벽 정리 (CNN · RNN · LSTM · GAN 핵심 이론) (0) | 2026.03.12 |