IsolationForest(2)
-
[이기적] 이상값(Outlier) 처리 방법 정리 (Box Plot · Z-score · DBSCAN · Isolation Forest)
💡 이상값(Outlier) 은 데이터 분석 결과를 왜곡할 수 있는 중요한 요소이다.이상값은 데이터 수집 과정의 오류 또는 자연적 발생에 의해 나타날 수 있으며,데이터 전처리 과정에서 적절한 탐지와 처리 과정이 필요하다.1️⃣ 이상값(Outlier)의 개념✅ 이상값 정의데이터 집합에서 정상 범위를 벗어난 값일반적인 패턴과 현저히 다른 관측값🔹 발생 원인데이터 입력 오류측정 오류실험 환경 오류자연적 극단값 발생🎯 포인트이상값 = Outlier데이터 분포에서 정상 범위를 벗어난 값2️⃣ 이상값의 종류 구분 설명 예시 단변..
2026.03.09 -
[이기적] 데이터 전처리 개요 정리 (데이터 정제 / 결측값 처리 / 이상치 탐지)
💡 데이터 전처리는 데이터 분석 과정에서 매우 중요한 단계로,데이터 정제·결측값 처리·이상치 탐지를 통해 데이터를 분석 가능한 형태로 만드는 작업이다.1️⃣ 데이터 정제(Data Cleaning)✅ 개념분석에 필요한 데이터를 추출·통합·가공하여 분석 가능한 형태로 만드는 과정단순 오류 제거가 아니라 분석 목적에 맞게 데이터 구조를 재구성하는 과정🎯 포인트 데이터 정제 = 분석 가능 형태로 변환✅ 데이터 정제 필요성🔹 1. 원하는 분석 결과 도출분석 도구와 기법에 맞게 데이터를 정제해야 함🔹 2. 데이터 품질 확보결측값, 중복, 오류 데이터 제거🔹 3. 분석 결과 신뢰성 확보정제되지 않은 데이터는 분석 결과 왜곡 가능2️⃣ 데이터 정제 과정 ..
2026.03.08