Introduction au Machine Learning
- Le Big Data et le Machine Learning.
- Les algorithmes d'apprentissage supervisés, non supervisés et par renforcement.
- Les étapes de construction d'un modèle prédictif.
- Détecter les valeurs aberrantes et traiter les données manquantes.
- Comment choisir l'algorithme et les variables de l'algorithme ?
Démonstration
Prise en main de l'environnement Spark avec Python à l'aide de Jupyter Notebook. Visualiser plusieurs exemples de modèles fournis.
Procédures d'évaluation de modèles
- Les techniques de ré-échantillonnage en jeu d'apprentissage, de validation et de test.
- Test de représentativité des données d'apprentissage.
- Mesures de performance des modèles prédictifs.
- Matrice de confusion, de coût et la courbe ROC et AUC.
Travaux pratiques
Evaluation et comparaison des différents algorithmes sur les modèles fournis.
Les modèles prédictifs, l'approche fréquentiste
- Apprentissage statistique.
- Conditionnement des données et réduction de dimension.
- Machines à vecteurs supports et méthodes à noyaux.
- Quantification vectorielle.
- Réseaux de neurones et Deep Learning.
- Ensemble learning et arbres de décision.
- Les algorithmes de Bandits, optimisme face à l'incertitude.
Travaux pratiques
Mise en œuvre des familles d'algorithmes en utilisant des jeux de données variés.
Les modèles et apprentissages bayésiens
- Principes d'inférence et d'apprentissage bayésiens.
- Modèles graphiques : réseaux bayésiens, champs de Markov, inférence et apprentissage.
- Méthodes bayésiennes : Naive Bayes, mélanges de gaussiennes, processus gaussiens.
- Modèles markoviens : processus markoviens, chaînes de Markov, chaînes de Markov cachées, filtrage bayésien.
Travaux pratiques
Mise en œuvre des familles d'algorithmes en utilisant des jeux de données variés.
Machine Learning en production
- Les spécificités liées au développement d'un modèle en environnement distribué.
- Le déploiement Big Data avec Spark et la MLlib.
- Le Cloud : Amazon, Microsoft Azure ML, IBM Bluemix...
- La maintenance du modèle.
Travaux pratiques
Mise en production d'un modèle prédictif avec l'intégration dans des processus de batch et dans des flux de traitements.