데이터 비식별화 기법 (k-익명성 / l-다양성 / t-근접성)

2026. 3. 21. 17:22Certifications/빅데이터분석기사 필기

1️⃣ 데이터 비식별화(Data De-identification)

✅ 개념

  • 데이터에 포함된 개인 식별 정보를 제거하거나 변형하여 개인을 식별할 수 없도록 만드는 과정
  • 개인정보 보호를 위해 데이터 분석 및 활용 전에 수행하는 중요한 절차

✅ 목적

  • 개인정보 보호
  • 데이터 활용 가능성 유지
  • 데이터 분석 가능 상태 유지

🎯 포인트

  • 개인정보 보호 + 데이터 활용 동시 목적
  • 대표 기법 → k-익명성 / l-다양성 / t-근접성

2️⃣ 준식별자(Quasi Identifier)

✅ 개념

  • 단독으로는 개인을 식별할 수 없지만
    다른 데이터와 결합하면 개인을 식별할 수 있는 정보

🔹 예시

준식별자 예시 설명
성별 개인 특성 정보
나이 연령 정보
지역 거주 위치 정보
직업 직업 정보
우편번호 지역 식별 가능 정보

🎯 포인트

  • k-익명성은 준식별자 기반 보호 기법

3️⃣ k-익명성 (k-Anonymity)

✅ 개념

  • 동일한 준식별자 조합을 가진 레코드가 최소 k개 이상 존재하도록 데이터 변환하는 기법
🔹 k-익명성 예시



나이 지역 질병
20~29 서울 감기
20~29 서울 독감
20~29 서울 폐렴

→ 동일 준식별자 레코드 = 3개
k = 3 익명성 만족

🎯 포인트

  • 동일 준식별자 레코드 ≥ k

🔎 k-익명성 = 특정 개인이 최소 k명 중 한 명으로 보이도록 만드는 기법


4️⃣ l-다양성 (l-Diversity)

✅ 개념

  • k-익명성을 만족하는 그룹 내에서
    민감 속성 값이 최소 l개 이상 다양하게 존재하도록 하는 기법
🔹 l-다양성 예시



나이 지역 질병
20~29 서울 감기
20~29 서울 독감
20~29 서울

→ 질병 종류 = 3개
l = 3 다양성 만족


🎯 포인트

  • 민감 정보 다양성 확보
  • 동질성 공격(Homogeneity Attack) 해결
  • k-익명성 보완

🔎 l-다양성 = 민감 정보 다양성 확보


5️⃣ t-근접성 (t-Closeness)

✅ 개념

  • 특정 그룹의 민감 속성 분포가 전체 데이터 분포와 일정 거리(t) 이하 차이를 유지하도록 하는 기법

🎯 포인트

  • 민감 속성 분포 차이 제한
  • 통계적 분포 거리 기반 보호
  • l-다양성 보완

🔎 t-근접성 = 민감 속성 분포 왜곡 방지


6️⃣ 세 가지 기법 비교

기법 핵심 개념 보완 관계
k-익명성 동일 준식별자 레코드 최소 k개 기본 모델
l-다양성 민감 속성 값 최소 l개 다양성 k-익명성 보완
t-근접성 민감 속성 분포 차이 제한 l-다양성 보완

7️⃣ 기법 등장 흐름

  1. k-익명성 → 기본 개인정보 보호 모델

  2. l-다양성 → k-익명성의 동질성 공격(Homogeneity Attack) 문제 해결

  3. t-근접성 → l-다양성의 민감 속성 분포 왜곡 문제 해결


📌 암기 핵심 요약

  • k-익명성 → 동일 준식별자 k개
  • l-다양성 → 민감 속성 다양성
  • t-근접성 → 민감 속성 분포 차이 제한