dbscan(3)
-
[이기적] 군집분석(Clustering) 완전 정리 (K-means, 계층적 군집, DBSCAN 핵심 개념)
1️⃣ 군집분석(Cluster Analysis)✅ 정의유사도(거리)를 기준으로 데이터를 여러 그룹으로 분류하는 분석 기법비지도학습(Unsupervised Learning) 대표 알고리즘🎯 포인트정답 데이터(Label) 없음유사한 데이터끼리 그룹화데이터 구조 파악 목적✅ 군집분석 특징같은 군집 → 유사성 높음다른 군집 → 차이 큼🔹 목표군집 내 거리 최소화군집 간 거리 최대화2️⃣ 군집분석 기본 가정하나의 군집 내부 데이터는 유사한 특성군집 간 데이터는 서로 다른 특성데이터 간 거리 또는 유사도 기준으로 분류🎯 포인트거리 기반 분석3️⃣ 군집분석의 척도군집분석에서 데이터 간 유사성은 거리(distance) 로 계산 거리 척도 특징 주요..
2026.03.13 -
[이기적] 이상값(Outlier) 처리 방법 정리 (Box Plot · Z-score · DBSCAN · Isolation Forest)
💡 이상값(Outlier) 은 데이터 분석 결과를 왜곡할 수 있는 중요한 요소이다.이상값은 데이터 수집 과정의 오류 또는 자연적 발생에 의해 나타날 수 있으며,데이터 전처리 과정에서 적절한 탐지와 처리 과정이 필요하다.1️⃣ 이상값(Outlier)의 개념✅ 이상값 정의데이터 집합에서 정상 범위를 벗어난 값일반적인 패턴과 현저히 다른 관측값🔹 발생 원인데이터 입력 오류측정 오류실험 환경 오류자연적 극단값 발생🎯 포인트이상값 = Outlier데이터 분포에서 정상 범위를 벗어난 값2️⃣ 이상값의 종류 구분 설명 예시 단변..
2026.03.09 -
[이기적] 데이터 전처리 개요 정리 (데이터 정제 / 결측값 처리 / 이상치 탐지)
💡 데이터 전처리는 데이터 분석 과정에서 매우 중요한 단계로,데이터 정제·결측값 처리·이상치 탐지를 통해 데이터를 분석 가능한 형태로 만드는 작업이다.1️⃣ 데이터 정제(Data Cleaning)✅ 개념분석에 필요한 데이터를 추출·통합·가공하여 분석 가능한 형태로 만드는 과정단순 오류 제거가 아니라 분석 목적에 맞게 데이터 구조를 재구성하는 과정🎯 포인트 데이터 정제 = 분석 가능 형태로 변환✅ 데이터 정제 필요성🔹 1. 원하는 분석 결과 도출분석 도구와 기법에 맞게 데이터를 정제해야 함🔹 2. 데이터 품질 확보결측값, 중복, 오류 데이터 제거🔹 3. 분석 결과 신뢰성 확보정제되지 않은 데이터는 분석 결과 왜곡 가능2️⃣ 데이터 정제 과정 ..
2026.03.08