Tour d’horizon de la librairie Pandas
- Rappels sur les notions de bases de Pandas.
- Lecture de fichiers de données (csv, excel, SQL, parquet).
- Description du jeu de données, et analyse statistique simple.
- Implémenter des analyses et des visualisations différentes en fonction du type de données.
- Gestion des données manquantes.
- Manipulation de dates pour les Time Series.
- Gestion des chaînes de caractères.
- Mise en place des bonnes pratiques en Data Science.
Travaux pratiques
Mise en place d’un environnement virtuel pour la Data Science, lecture d’un fichier csv et xls, brève analyse statistique et description des jeux de données.
Maîtriser les subtilités des groupbys
- Les groupbys pour appréhender les modalités dans les jeux de données.
- Groupby à simple indice avec les fonctions d’agrégations classiques.
- Personnalisation des fonctions d’agrégations.
- Groupby à multiples indices.
- Différence entre les fonctions apply et transform.
- Rappels sur les fonctions anonymes.
Travaux pratiques
Sur 2 jeux de données économiques, mise en pratique du groupby et visualisation des données. Création d’un toy dataset et utilisation du groupby.
Tables pivots et tableaux croisés
- Fonctions d’agrégation et tables pivots.
- Matrice de contingence.
- Tableaux croisés.
Travaux pratiques
Sur 2 jeux de données économiques, mise en pratique des tables pivots et tableaux croisés.
Jointure de tables
- Notions d’axes.
- Concaténation.
- Merge selon une ou plusieurs clés.
- Jointure par rapport aux indices.
Travaux pratiques
Sur 2 jeux de données économiques, mise en pratique des différents types de jointures.
Accélération du calcul avec Pandas
- Boucler sur les lignes et les colonnes.
- Revenir aux basiques avec NumPy.
- Exemples de multiprocessing avec la librairie Modin.
- Exemples de multiprocessing avec la librairie Numba.
Travaux pratiques
Sur un jeu de données volumineux, mise en pratique des différentes notions abordées lors du cours.