본문 바로가기
머신러닝/아웃라이어, 결측치

알고리즘 간단 요약 및 비교

by 혜 림 2021. 3. 30.



- 클러스터링

# KNN : 인접한 데이터로부터 대체 값을 찾음

- 장: 간단한 알고리즘 
- 단: 거리기반(시간) 

- 활용방안: 결측치 대체
- 고려사항: 범주형 변수의 대체(어떤 class가 있는 경우 가능하지만, 그렇지 않고 모두가 다른(예를 들어 이름)의 경우는 불가능함)          
          :  data scaling 

# DBSCAN : 데이터 포인트 위치를 기반으로 클러스터링

- 장: 높은 활용도, 기하학적 군집화
- 단: 거리기반(시간), 파라미터 탐색(이에 대한 대체방안으로 HDBSCAN, 그러나 여전히 입실론은 사용자가 설정해야 함)

- 활용방안: (군집화를 통한) 결측치 대체, 이상치 탐색
- 고려사항: 결측치가 있는 열은 어떻게 군집화 할것인가? 

 

# 자기 조직화 지도 : 다차원 데이터를 2차원에 매핑함 (차원축소 + 클러스터링)

 

- 장: 시각화가 가능하여, 직관적으로 이해 가능

- 단: 실제 데이터에 접목 가능한지 확인

 

- 활용방안: 클러스터링, 아웃라이어 탐색(밀도가 낮은 그리드 탐색) 

 


- 아웃라이어 


#  LOF : 데이터 밀도 기반 아웃라이어 탐색 

- 장: global한 아웃라이어만 찾는 여타 방식과 달리, local한 아웃라이어 탐색 가능
- 단: (시간), 파라미터 탐색

- 활용방안: 이상치 탐색

#  Iforest (+ extended iforest)  : 데이터를 고립시키면서 아웃라이어 탐색 

- 장: 짧은 시간
- 단: 파라미터 탐색(contamination rate 설정값에 결과값이 변동)

- 활용방안: 이상치 탐색

#  One class support vector machine(SVM)  : inlier 데이터 셋을 학습하여 추후에 입력되는 데이터의 아웃라이어 판단 

- 장: 
- 단: outlier를 탐색하기 위해서 그 전에 inlier만 있는 셋이 필요함

- 활용방안: 이상치 탐색(inlier 셋이 있다는 가정 하<-지켜지기 어려움)

# 마할라노비스 거리 : 공분산 행렬을 고려하여 다변량 변수의 아웃라이어 탐색

- 장: 데이터의 분포를 고려한 아웃라이어 탐색

- 단: 알파 값의 설정

 


- 활용방안: 이상치 탐색

 

 

'머신러닝 > 아웃라이어, 결측치' 카테고리의 다른 글

실루엣 분석Silhouette Analysis  (0) 2021.03.30
자기조직화지도 SOM  (0) 2021.03.30
마할라노비스 거리Mahalanobis distance  (0) 2021.03.30
paper 요약  (0) 2021.03.23
알고리즘, 데이터 적용  (0) 2021.03.23

댓글