concrete_data.csv OneDrive_2022-11-09.zip
'Data and AI websites list.png' telecom_churn_dq.csv
'OneDrive_2022-11-09 (1).zip' 'Tosa Python Referentiel.pdf'
0
141.3
212.0
1
168.9
42.2
2
250.0
0.0
3
266.0
114.0
4
154.8
183.4
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1030 entries, 0 to 1029
Data columns (total 9 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 cement 1030 non-null float64
1 slag 1030 non-null float64
2 ash 1030 non-null float64
3 water 1030 non-null float64
4 superplastic 1030 non-null float64
5 coarseagg 1030 non-null float64
6 fineagg 1030 non-null float64
7 age 1030 non-null int64
8 strength 1030 non-null float64
dtypes: float64(8), int64(1)
memory usage: 72.5 KB
count
1030.0
1030.0
mean
281.16786407766995
73.89582524271844
std
104.50636449481532
86.27934174810582
min
102.0
0.0
25%
192.375
0.0
50%
272.9
22.0
75%
350.0
142.95
max
540.0
359.4
Quelques visualisations
Nettoyage des données et création de nouvelles colonnes
0
141.3
212.0
1
168.9
42.2
2
250.0
0.0
3
266.0
114.0
4
154.8
183.4
5
255.0
0.0
6
166.8
250.2
7
251.4
0.0
8
296.0
0.0
9
155.0
184.0
On constate que les variables qui ont une influence (positive +, ou négative -) le plus la résistance en compression du béton sont:
(+): cement, superplastic et age
(-): water, fineagg
Modèles de prédiction
J'ai choisi d'utiliser et comparer les 3 modèles scikit-learn suivants pour prédire la résistance en compression du béton
La régression linéaire: Une régression a pour objectif d’expliquer une variable y par le moyen d'autres variables xi.
Le KNN (k-nearst neighbors ou plus proches voisins): algorithme utilisable aussi bien sur des problèmes de régression que de classification. Son fonctionnement peut être assimilé à l’analogie suivante “dis moi qui sont tes voisins, je te dirais qui tu es…”.
Le Random Forest: méthode ensembliste d'apprentissage basée sur le classifier 'Decison Tree'
Import des modules et pre-processing
La régression Linéaire
Coef. de détermination R2: 0.596
-----------------------------------
Erreur moyenne absolue: 8.027 (MPa)
-----------------------------------
RMSE (root mean sqared error): 10.135 (MPa)
Le modèle KNN
Coef. de détermination R2: 0.672
-----------------------------------
Erreur moyenne absolue: 6.726 (MPa)
-----------------------------------
RMSE (root mean sqared error): 9.139 (MPa)
Random forest model
Coef. de détermination R2: 0.883
-----------------------------------
Erreur moyenne absolue: 3.685 (MPa)
-----------------------------------
RMSE (root mean sqared error): 5.462 (MPa)
Synthèse des résultats
Sans surprise, le modèle randomforest fournit de meilleurs performances.
pour la régression linéaire: R2=0.60, MAE=8.03 et RMSE=10.14
pour le KNN: R2=0.67, MAE=6.73 et RMSE=9.14
pour le randomforest: R2=0.88, MAE=3.69 et RMSE=5.46