Qu’est-ce que la data science ?
- Les fondamentaux : big data, data lake, data mining, intelligence artificielle, machine et deep learning, text mining.
- Les nouveaux défis : l'émergence et la multiplication de nouvelles sources de données.
- Hétérogénéité des données, flux temps réel et explosion des volumes de données, à prendre en compte.
- L’écosystème technologique du big data.
- Démystifier le monde de la data science : analyse descriptive, prédictive et prescriptive.
- Le métier, les outils et les méthodes du data scientist.
- Introduction au machine learning, à l’analyse supervisée et à l’analyse non supervisée.
- Notions de sur et sous-apprentissage.
Démonstration
Cas d’usage de la data science dans une chaîne de valeur métier (comportement client, offre produit, etc.).
Les méthodes et les modèles de la data science
- Collecte, préparation et exploration des données.
- L’importance de la démarche de la qualité des données (nettoyer, transformer, enrichir).
- Définition des métriques.
- Les méthodes statistiques de base.
- Les principales classes d’algorithmes supervisés : arbres de décision, K plus proches voisins, régression, Naive Bayes.
- Les principales classes d’algorithmes non supervisés : clustering, ACP, CAH, réseaux de neurones.
- Le text mining et les autres familles d’algorithmes.
Echanges
Analyses simples avec R ou Python pour illustrer les techniques de l’analyse supervisée (régression et classification) et non supervisée (clustering, segmentation et détection d'anomalies).
Représentation graphique et restitution des données
- Les langages de l’analyse statistique R et Python.
- Leurs environnements de développement (R-Studio, Anaconda, PyCharm) et leurs librairies (Pandas, machine learning).
- Les outils de DataViz (Power BI, Qlik, tableau, etc.).
- Modélisation des données : représentation des processus, des flux, des contrôles et des conditions.
- Modélisation des données : les outils (Orange, Power BI).
- Communiquer les résultats par le data storytelling : organiser le visuel (diagrammes, classements, cartographies).
- Communiquer les résultats par le data storytelling : restituer la signification des résultats.
Echanges
Exercices d’exploration graphique des données, analyse de la position et de l’étendue des données (nuages, histogrammes, etc.).
Modélisation d’un problème de data science
- Récapitulatif de la démarche.
- Analyse de deux cas métier, à titre d'exemple la relation client et la détection des fraudes, mais peuvent être autres.
- Cas métier 1 : la relation client dans l’assurance.
- Cibler les campagnes marketing. Comprendre les causes d’attrition client. Quels produits pour quels clients ?
- Cas métier 2 : la détection des fraudes.
- Comparer la recherche par statistiques classiques et data mining.
- Détection par méthode supervisée. Détection par méthode non supervisée.
Etude de cas
Mise en application pratique de la méthode au storytelling sur des cas métier.