Python/Machine Learning

[Python ML]모형 성능비교하기(로지스틱 회귀, K-NN, DT)

sohyunkimmm 2023. 1. 20. 16:28
728x90

* 세가지 분류 모형 성능비교

➡️ LogisticRegression, KNeighborsClassifier, DecisionTreeClassifier 모델 사용

 

 

Y1 = '이탈여부' ➡️ '분류형 모델' 사용

 

데이터 분할(train_test_split), 데이터 표준화(연속형 변수x= StandardScaler, 분류형 변수x= OneHotEncoder)

 

각 모델에 X_train, Y_train 학습시키기(.fit)

 

각 모델의 Y 예측값(Y_pred) 도출

 

각 모델의 accuracy 확인하기. accuracy는 dt모델이 0.713으로 가장 높다

 

각 모델의 f1-score(macro avg) 확인하기. f1-score은 'lr = 0.55 / knn = 0.51 / dt = 0.46'으로 로지스틱 회귀모형이 가장 높다

 

각 모델의 ROC 그려보기
그래프가 좌측 상단으로 갈수록 성능이 좋은것

 

AUC score 또한 로지스틱 회귀 모형이 0.659로 가장 높게 나온다

 

 

<결과값 요약>

Accuracy: DT(0.713) > KNN(0.704) > LR(0.697)

F1-score: LR(0.55) > KNN(0.51) > DT(0.46)

AUC score: LR(0.659) > DT(0.583) > KNN(0.572)

 

➡️ 이 데이터에서는 로지스틱 회귀 모형(LR)의 성능이 가장 좋다고 볼 수 있다.

728x90
반응형