본문 바로가기

머신러닝10

[Finance]chp5. 시세 DB 구축 및 시세 조회 API 개발 [reference] 파이썬 증권 데이터 분석 휴먼카인드님 블로그 5.1 야후 파이낸스와 네이버 금융 비교하기 야후 파이낸스에서 찾아온 삼성 전자 데이터. 아래 그림에서 크게 2가지 문제가 있다. (1) 종가와 수정 종가가 일치하지 않다. (2018년 5월에 액면분할이 시행됐는데도, 2018년 전에는 종가와 수정 종가가 일치하지 않는 것을 확인할 수 있다) *수정 종가 : 기업에 증자, 액면분할 등 이벤트가 발생하면 주식수와 함께 주가에 변화가 생깁니다. 이때 현재 주가의 수준을 과거와 비교 가능하게 하기위해 과거 주가도 함께 수정하는데, 이것이 수정주가입니다.) (2) 2017년 10월에 데이터가 비었다. => 따라서 야후 파이낸스에서 제대로 제공하지 않는 데이터를 네이버 파이낸스를 통해서 확인해보자,.. 2022. 3. 23.
[Finance]chp6. 트레이딩 전략과 구현 [refer] 파이썬 증권 데이터 분석 휴먼카인드님 블로그 6.1 현대 포트폴리오 이론 *리스크? 수익률의 표준편차 자산 가격이 평균값에서 벗어나는 정도, 리스크 효율적 투자선 투자자가 인내할 수 있는 리스크 수준에서 최상의 기대수익률을 제공하는 포트폴리오의 집합 아래 그림에서 X 축은 리스크(표준편차)이고 점 하나가 개별적인 포트폴리오를 뜻한다. 이때 Efficient Frontier 곡선은 효율적 투자선이다. 이 투자선은 아래 그림을 보면 알겠지만, 모든 포트폴리오를 아래 plot에 표현했을 때 가장 외곽에 있는 포트폴리오를 이은 선인 셈이다. 이 곡선 아래에 있는 개별 포트폴리오은 효율적 투자선에 위치한 포트폴리오보다 열세인 포트폴리오이다. 예컨대 동일한 수익 대비해서 리스크가 크거나, 반대로 동일.. 2022. 3. 23.
fraud detection 을 통해보는 outlier algorithm github.com/kkimlim2/outlier_detection 코드 확인은 위에서 이제 git을 공부해서 어느 정도 할 줄 안다!! 위에 끊임없이 push할 예정이다 0. 배경 이상치는 정상 데이터 분포에서 크게 벗어나는 데이터를 의미한다. 이상치는 정상 데이터의 분포를 왜곡한다는 점에서 데이터 정제 과정에서 필수적이다. 데이터 정제에서 나아가 다양한 목적에서도 이용되는 분야이다. 그 중에서도 본고는 특히, 금융 데이터에 접목하여 이상치 탐지 알고리즘들의 비교분석하며 보다 나은 방법을 제시하고자 한다. 1. 데이터 셋 본고에서 참조한 데이터 셋은 ieee에서 제공하는 셋으로, 금융 사기를 예측하는 것이 목적이다. transaction과 id 크게 두개의 셋이 있지만, 본고의 목적은 정확하게 frau.. 2021. 4. 14.
인코딩을 통한 명목형 변수 knnimputing (150 000, 6) 중에서 3,000 개의 결측치 셀 import pandas as pd import numpy as np import category_encoders as ce from sklearn.impute import KNNImputer from sklearn.preprocessing import RobustScaler #######################작업 일지#################### ## 하나의 변수만 missing일 때만 해봅시다 ## =-> 이제 성공적으로 완수했으니까 그 다음 단계로 넘어가서 ## 여러개의 category가 missing인 경우도 해봅시다 ## => 이제 성공적으로 완수했으니까 그 다음 단계로 넘어가서 ## 1. missing_col의 자동 탐색 .. 2021. 4. 13.