머신러닝/아웃라이어, 결측치8 fraud detection 을 통해보는 outlier algorithm github.com/kkimlim2/outlier_detection 코드 확인은 위에서 이제 git을 공부해서 어느 정도 할 줄 안다!! 위에 끊임없이 push할 예정이다 0. 배경 이상치는 정상 데이터 분포에서 크게 벗어나는 데이터를 의미한다. 이상치는 정상 데이터의 분포를 왜곡한다는 점에서 데이터 정제 과정에서 필수적이다. 데이터 정제에서 나아가 다양한 목적에서도 이용되는 분야이다. 그 중에서도 본고는 특히, 금융 데이터에 접목하여 이상치 탐지 알고리즘들의 비교분석하며 보다 나은 방법을 제시하고자 한다. 1. 데이터 셋 본고에서 참조한 데이터 셋은 ieee에서 제공하는 셋으로, 금융 사기를 예측하는 것이 목적이다. transaction과 id 크게 두개의 셋이 있지만, 본고의 목적은 정확하게 frau.. 2021. 4. 14. 인코딩을 통한 명목형 변수 knnimputing (150 000, 6) 중에서 3,000 개의 결측치 셀 import pandas as pd import numpy as np import category_encoders as ce from sklearn.impute import KNNImputer from sklearn.preprocessing import RobustScaler #######################작업 일지#################### ## 하나의 변수만 missing일 때만 해봅시다 ## =-> 이제 성공적으로 완수했으니까 그 다음 단계로 넘어가서 ## 여러개의 category가 missing인 경우도 해봅시다 ## => 이제 성공적으로 완수했으니까 그 다음 단계로 넘어가서 ## 1. missing_col의 자동 탐색 .. 2021. 4. 13. 실루엣 분석Silhouette Analysis 머신러닝은 크게 지도 비지도 학습으로 나뉜다. 지도 학습은 우리가 얻고자 하는 종속변수(Y)값을 컴퓨터에게 학습시켜줄 수 있는 경우인 반면 비지도 학습은 우리가 얻고자 하는 종속변수(Y)값을 컴퓨터에게 학습시켜줄 수가 없다. 즉 아이에게 문제는 냈는데 답지가 없는 상태. 그래서 비지도 학습은 데이터의 형태를 파악하는 등의 목적을 가진다. 또한 정답이 없기 때문에 정확도를 측정하기가 어렵다. 대신 비지도 학습의 대표적인 목표인 클러스터링의 평가 지표로서, 실루엣 분석Silhouette Analysis 을 소개하고자 한다. 실루엣계수 값은 다음과 같이 구할 수 있다. 별로 표시한 i번째 데이터에 대하여 검은 영역은 i번째 데이터가 속한 클러스터고, 초록 영역은 i가 속한 클러스터와 가장 가까운 클러스터이다... 2021. 3. 30. 자기조직화지도 SOM 자기조직화지도 SOM 요약 차원축소 + 군집화 딥러닝 다차원의 데이터를 2차원, 혹은 1차원 지도에 매핑하는 것 비슷한 애들끼리 가깝게 모아놓은 것 거리에 대한 정보는 잃지만, 그 관계(유사성)은 유지 활용 방안: 군집화, 아웃라이어 - 이웃의 범위를 지정하여(혹은 지정하지 않고) 격자를 기준으로 군집화 가능(단 촘촘한 그리드 이용) map에 밀집도를 드러낸다면, 어디가 아웃라이언지 알 수 있을 것 개요 1. 알고리즘 1.1 구조 1.2 가중치 1.2.1 initialize 1.2.2 find BMU 1.2.3 weight updating 2. 활용 3. 주의점, 개선된 알고리즘 4. 참고 사이트 1. 알고리즘 1.1 구조 이런식으로 데이터 프레임이 있다면 X1 X2 X3 X4 0.2 0.3 0.1 0... 2021. 3. 30. 이전 1 2 다음