센서 데이터와 이상 탐지 5일차 (AutoEncoder, DBSCAN ..)

AI/머신러닝

edcrfv458 2025. 3. 27. 14:48

이상 탐지 흐름

일정 구간의 평균/분산과 현재 값을 비교 ➡️ 급변 시점 감지
도구: ruptures, changefinder, Bayesian Change Point
- ruptures는 시계열 데이터에서 변화점(change point) 을 감지하는데 사용
- 변화점 감지(change point detection)는 데이터의 통계적 성질(평균, 분산 등)이 변하는 시점을 찾아내는 것이 목적

이동 평균(Moving Average) 기반의 간단한 이상치 탐지(Anomaly Detection)

ChangeFinder 알고리즘을 사용한 이상 탐지 / 변화 탐지

CUSUM (Cumulative Sum Control Chart) 알고리즘을 이용한 변화 탐지 (Change Detection)

Bayesian Online Change Point Detection (BOCPD) 알고리즘

일정한 기간(슬라이딩 윈도우 또는 구간) 동안의 분산(혹은 표준편차)을 계산하고 그 분산이 사전에 설정한 임계값 초과하면 변화가 생겼다고 판단
분산을 기준으로 삼는 이유
- 정상 구간은 일반적으로 분산이 작고 일정
- 이상 구간은 평균이 바뀌거나 급격한 값의 진동이 생기며 분산이 커짐
- 따라서 분산이 갑자기 튀는 지점을 이상 또는 변화점으로 탐지

정규 분포를 따르는 데이터에서 평균으로부터 특정 거리 이상 떨어질 값이 나올 확률
이 확률은 "이 값이 정상 구간 밖에 있을 가능성" 이며, 일종의 이상치(outlier) 점수로 활용
- 이상치 탐지: 꼬리 확률이 매우 작으면 "이 값은 정상 분포에서 거의 안 나오는 값 ➡️ 이상"
- p-value 계산: 통계 검정에서 유의확률(p-value)을 계산할 때도 tail probability 사용
- 확률적 스코어링: 확률 기반 이상 탐지에 사용

밀도 기반 클러스터링 알고리즘
특히 이상치 탐지와 비선형 구조 데이터 분리에 강한 특징을 가진 알고리즘
"점들이 얼마나 밀집되어 있는가"를 기준으로 클러스터를 자동으로 형성하고, 밀도가 낮은 고립된 점들은 이상치(noise)로 간주하는 알고리즘
동작 원리 예약
- 모든 점에 대해 eps 거리 안의 이웃 점들을 찾음
- 이웃이 min_samples 이상이면 → Core Point로 간주 → 클러스터 생성 시작
- 이웃의 이웃들을 재귀적으로 연결하며 클러스터 확장
- 어떤 클러스터에도 속하지 않는 점은 Noise (이상치) 처리