Pengumpulan Data
Menelaah Data
Validasi Data
Menentukan Object Data
Membersihkan Data
Konstruksi Data
Modelling
Oversampling
KNN
Random Forest
XGBoost
Oversampling + Normalisasi
KNN
Random Forest
XGBoost
Oversampling + Normalisasi + Tunning
KNN
Random Forest
XGBoost
Evaluasi
Deployment
Result: https://hhd.hiskia.app
Kesimpulan
Dari penelitian yang dilakukan, telah dilaksanakan pemodelan menggunakan algoritma KNN (K-Nearest Neighbors), Random Forest, dan XGBoost. Beberapa metode penanganan data diterapkan, termasuk penggunaan Random Over Sampling SMOTE untuk mengatasi data yang tidak seimbang, RandomSearchCV untuk optimasi parameter, dan Normalisasi data. Hasilnya, model KNN dengan Random Over Sampling SMOTE mencapai akurasi 75%, sementara Random Forest mencapai 92% dan XGBoost mencapai 90.4%.
Ketika model KNN menggunakan data yang telah dinormalisasi dan diproses dengan Random Over Sampling SMOTE, akurasinya meningkat menjadi 86%. Untuk Random Forest, akurasinya tetap 92%, sedangkan XGBoost mencapai 90%. Lebih lanjut, ketika dilakukan penyesuaian parameter dengan RandomSearchCV, normalisasi, dan Random Over Sampling SMOTE, akurasi model KNN meningkat menjadi 93%, sementara Random Forest turun menjadi 89%, dan XGBoost meningkat menjadi 91%.
Dari hasil ini, dapat disimpulkan bahwa penanganan data yang optimal untuk mengatasi ketidakseimbangan data adalah dengan menggabungkan metode Random Over Sampling SMOTE, tuning menggunakan RandomSearchCV, dan normalisasi data. Pendekatan ini secara signifikan meningkatkan akurasi model klasifikasi, khususnya untuk model KNN dan XGBoost. Namun, untuk model Random Forest, pendekatan ini justru menurunkan akurasinya. Secara keseluruhan, penanganan ketidakseimbangan data dengan tuning parameter, normalisasi, dan oversampling berdampak signifikan terhadap peningkatan performa model klasifikasi. Memilih model dan parameter yang tepat dapat meningkatkan akurasi dan kinerja model secara keseluruhan.