Autorzy: Paulina Chmielewska, Mikołaj Macura, Julian Kominiak
Czyszczenie Data Setu
Usuwamy puste rekordy, a także kolumny 'index' i 'id'.
Usuwamy rekord, który wskazuje na 'Other' w kolumnie 'gender' oraz zamieniamy ją na 'is_female' z wartościami liczbowymi.
Zamieniamy kolumnę 'work_type' na 'is_working' z wartościami liczbowymi.
Zamieniamy kolumnę 'Residence_type' na 'is_urban' z wartościami liczbowymi.
Zamieniamy kolumnę 'ever_married' na wartości liczbowe.
Zamieniamy kolumnę 'smoking_status' na wartości liczbowe.
Usuwamy puste rekordy, resetujemy index, ustawiamy kolumny w odpowiedniej kolejności oraz zapisujemy je do nowego pliku.
Wykresy
/shared-libs/python3.7/py/lib/python3.7/site-packages/seaborn/categorical.py:1296: UserWarning: 80.3% of the points cannot be placed; you may want to decrease the size of the markers or use stripplot.
warnings.warn(msg, UserWarning)
Implementacja Algorytmów
Klasa DataProcessing, pomocna przy przygotowywaniu danych do klasyfikacji, tasowania, normalizacji oraz rozdzielania na zbiór treningowy i walidacyjny
Klasyfikatora NaiveBayes
Implementacja klasyfikatora NaiveBayes dla naszych danych
Accuracy: 93%
Klasyfikator KNN
Implementacja klasyfikatora KNN dla naszych danych
For k = 3 | Accuracy: 94.553 % (972 correct)
For k = 4 | Accuracy: 93.482 % (961 correct)
For k = 5 | Accuracy: 93.872 % (965 correct)
Time for BayesPrediction is 0.013s
Time for KNNPrediction is 1.769s
Probability of stroke is: 94.4 %