PythonML 5

[Python ML]KOSIS 통계자료를 활용하여 5가지 모델 성능 비교해보기

* KOSIS 국가통계포털 (사이트 소개글) 국가통계포털(KOSIS, Korean Statistical Information Service)은 국내·국제·북한의 주요 통계를 한 곳에 모아 이용자가 원하는 통계를 한 번에 찾을 수 있도록 통계청이 제공하는 One-Stop 통계 서비스입니다. 현재 300여 개 기관이 작성하는 경제·사회·환경에 관한 1,000여 종의 국가승인통계를 수록하고 있으며, 국제금융·경제에 관한 IMF, Worldbank, OECD 등의 최신 통계도 제공하고 있습니다. 쉽고 편리한 검색기능, 일반인들도 쉽게 이해할 수 있는 다양한 콘텐츠 및 통계설명자료 서비스를 통해 이용자가 원하는 통계자료를 쉽고 빠르고 정확하게 찾아보실 수 있습니다. 사이트: https://kosis.kr/inde..

[Python ML]서포트 벡터 머신(SVM)_SVC/SVR, 나이브 베이즈(Naive Bayes)_GaussianNB/BayesianRidge

* 서포트 벡터 머신(SVM; Support Vector Machine) - '초평면을 활용한 분류모형' - 데이터를 선형으로 분리하는 최적의 선형 결정 경계를 찾는 알고리즘. 알고리즘의 목표는 클래스가 다른 데이터들을 '가장 큰 마진(margin)'으로 분리해내는 선 또는 면(=초평면)을 찾아내는 것 - 마진(margin): 두 데이터 군과 결정 경계가 떨어져있는 정도 - 대부분의 데이터는 이상적으로 분리되어 있지 않음. 많은경우 이상치(outlier)들이 관측됨. - 이런 경우 데이터를 선형적으로 완벽하게 분리하는 것은 불가능함. 이를 해결하기 위해 약간의 오류를 허용하는 파라미터 = 'C' (cost) - 낮은 C값: 데이터샘플이 다른 클래스에 놓이는 것을 많이 허용 (일반적인 결정경계 찾아냄) ➡..

[Python ML]K-최근접이웃(K-NN), 의사결정나무(Decision Tree)

* K-최근접 이웃(K-NN; K-Nearest Neighbor) - 가장 근접하게 있는 데이터 종류에 따라서 해당 데이터의 종류를 정해주는 알고리즘 (유유상종) - 판별하고 싶은 데이터와 인접한 k개의 데이터를 찾아, 해당 데이터의 라벨이 다수인 범주로 데이터를 분류하는 방식 - k는 '홀수'로 하는것이 좋음. 짝수일 경우 동점 상황이 만들어져 분류할 수 없는 경우가 발생할 수 있기 때문 * K-NN 코딩하기 1) KNeighbors Classifier(분류형) - 순서: 데이터 분할 - 데이터 표준화 - 데이터 밸런싱 - 모델 생성 - 모델 적용 - 결과값 도출 - X는 이산형 변수만 가지고 있기 때문에, StandardScaler()만 적용 - 오버샘플링 SMOTE 적용 - knn 분류모델 생성: ..

[Python ML]분류모델평가_오분류표, ROC커브 & 로지스틱 회귀분석(Logistic, Multinomial Logistic Regression Analysis)

* 분류모델 평가 1) 오분류표 - Accuracy(정확도) = TP + TN / TP + FN + FP + TN => 분자가 모두 T - Error Rate(오분류율) = FP + FN / TP + FN + FP + TN (1 – Accuracy) => 분자가 모두 F - Sensitivity(민감도) & Recall(재현율) = TP / P => 두개의 식이 같음 - Specificity(특이도) = TN / N => sensitivity의 반대편 - Precision(정밀도) = TP / TP + FP => 모두 P에 관한 것 - F1 score = 2 * precision * recall / precision + recall => 더하기가 아래로(분모로) 간다라고 생각 *accuracy, F1 s..

728x90
반응형