Import des données et preprocessing
- L'environnement de développement Python / Anaconda / Jupyter Notebook.
- Pandas : l’analyse de données tabulaires (CSV, Excel...), statistiques, pivots, jointures, filtres.
- Traitement des valeurs manquantes : imputation par la moyenne, médiane, interpolation, knn…
- Traitement des Outliers : analyse graphique, méthode de l’IQR, Z-score.
- Standardisation.
- Normalisation : Skewness et Kurtosis.
- Données non balancées : Undersampling, Oversampling, SMOTE.
Travaux pratiques
Manipulation de Python dans un notebook Jupyter. Exercice de mise en pratique avec pandas.
Mise en place de l’ensemble des pré-traitements à l’aide des librairies python spécifiques.
Entraînement de modèles et évaluation
- Modèles d’apprentissage supervisés et non-supervisés les plus courants.
- Entraînement de modèles avec Scikit-learn.
- Méthodes d’évaluations : savoir choisir les bonnes métriques pour chaque problématique.
Travaux pratiques
Entraînement de plusieurs modèles supervisés et non supervisés, comparaison des performances et choix du meilleur modèle.
Optimisation des modèles et log des performances
- Présentation des librairies Optuna, Hyperopt.
- Présentation de l’approche Grid Search pour identifier les meilleurs hyper paramètres d’un modèle.
- Log des hyper paramètres et des performances dans Mlflow.
Travaux pratiques
Optimisation des modèles élaborés dans la partie précédente et log des métriques / hyperparamètres dans Mlflow.
Modèle et Data Drift
- Intérêt de vérifier le modèle Drift et le Data Drift.
- Présentation des librairies Evidently et Streamlit.
Travaux pratiques
Mise en place d’un Dashboard Evidently pour monitorer le Drift des données.
Industrialisation : déploiement dans le cloud
- Présentation du service AWS EC2.
- Présentation de Flask pour le pour la mise à disposition d’un modèle de machine learning par le biais d’une API.
- Présentation de divers outils de connexion à l’environnement virtuel tels que Putty, Visual Studio Code…
- Déploiement du code par le biais de GitHub.
Travaux pratiques
Déploiement d’un modèle sur un environnement cloud avec la librairie Flask.