본문 바로가기

머신러닝10

실루엣 분석Silhouette Analysis 머신러닝은 크게 지도 비지도 학습으로 나뉜다. 지도 학습은 우리가 얻고자 하는 종속변수(Y)값을 컴퓨터에게 학습시켜줄 수 있는 경우인 반면 비지도 학습은 우리가 얻고자 하는 종속변수(Y)값을 컴퓨터에게 학습시켜줄 수가 없다. 즉 아이에게 문제는 냈는데 답지가 없는 상태. 그래서 비지도 학습은 데이터의 형태를 파악하는 등의 목적을 가진다. 또한 정답이 없기 때문에 정확도를 측정하기가 어렵다. 대신 비지도 학습의 대표적인 목표인 클러스터링의 평가 지표로서, 실루엣 분석Silhouette Analysis 을 소개하고자 한다. 실루엣계수 값은 다음과 같이 구할 수 있다. 별로 표시한 i번째 데이터에 대하여 검은 영역은 i번째 데이터가 속한 클러스터고, 초록 영역은 i가 속한 클러스터와 가장 가까운 클러스터이다... 2021. 3. 30.
자기조직화지도 SOM 자기조직화지도 SOM 요약 차원축소 + 군집화 딥러닝 다차원의 데이터를 2차원, 혹은 1차원 지도에 매핑하는 것 비슷한 애들끼리 가깝게 모아놓은 것 거리에 대한 정보는 잃지만, 그 관계(유사성)은 유지 활용 방안: 군집화, 아웃라이어 - 이웃의 범위를 지정하여(혹은 지정하지 않고) 격자를 기준으로 군집화 가능(단 촘촘한 그리드 이용) map에 밀집도를 드러낸다면, 어디가 아웃라이언지 알 수 있을 것 개요 1. 알고리즘 1.1 구조 1.2 가중치 1.2.1 initialize 1.2.2 find BMU 1.2.3 weight updating 2. 활용 3. 주의점, 개선된 알고리즘 4. 참고 사이트 1. 알고리즘 1.1 구조 이런식으로 데이터 프레임이 있다면 X1 X2 X3 X4 0.2 0.3 0.1 0... 2021. 3. 30.
알고리즘 간단 요약 및 비교 - 클러스터링 # KNN : 인접한 데이터로부터 대체 값을 찾음 - 장: 간단한 알고리즘 - 단: 거리기반(시간) - 활용방안: 결측치 대체 - 고려사항: 범주형 변수의 대체(어떤 class가 있는 경우 가능하지만, 그렇지 않고 모두가 다른(예를 들어 이름)의 경우는 불가능함) : data scaling # DBSCAN : 데이터 포인트 위치를 기반으로 클러스터링 - 장: 높은 활용도, 기하학적 군집화 - 단: 거리기반(시간), 파라미터 탐색(이에 대한 대체방안으로 HDBSCAN, 그러나 여전히 입실론은 사용자가 설정해야 함) - 활용방안: (군집화를 통한) 결측치 대체, 이상치 탐색 - 고려사항: 결측치가 있는 열은 어떻게 군집화 할것인가? # 자기 조직화 지도 : 다차원 데이터를 2차원에 매핑함 (차.. 2021. 3. 30.
마할라노비스 거리Mahalanobis distance # 다변량 변수에서 outlier 탐색하는 기법 # 차원이 늘어난 z 스코어 기반 outlier 탐색 기법이라고 생각하면 될 듯 (엄밀히는 조금 다르지만) 그러나 z 스코어 기반 outlier 탐색 기법은 유클리디안 거리를 사용함 # 그렇기에 다른 점은 - 점들 사이의 거리가 아니라, 센터로부터의 거리를 이용함 - 공분산 행렬covariance matrix를 고려함 (=> 변수의 variation을 잘 캡쳐함) - 카이 제곱 분포의 quantile에 기반해 cutoff 값을 정함 - 데이터 자체에 대한 가정 X # 거리를 구하는 방법 이때 점들 사이의 거리가 아니라 센터로부터의 거리라고 했으므로 위에서 X2는 centerpoint라고 생각하면 된다. centerpoint는 각 col의 평균으로 이루어진 .. 2021. 3. 30.