Environnement Python pour le NLP
- L'environnement de développement Python / Anaconda / Jupyter Notebook.
- Les principaux types de données : chaînes, booléennes, nombres, listes, tuples et dictionnaires.
- Les structures de contrôles : les boucles for et while, le test if/elif/else.
- Les fonctions : création, passage de paramètres, valeurs par défaut, arguments variables.
- Numpy : vecteurs, matrices, slicing, concaténation.
- Pandas : l’analyse de données tabulaires (CSV, Excel...), statistiques, pivots, jointures, filtres.
Travaux pratiques
Manipulation de Python dans un notebook Jupyter. Exercice de mise en pratique avec pandas et numpy.
Prétraitement des données textuelles
- Identifier ce que sont des données textuelles et présentation des librairies spaCy et nltk.
- Tokenisation des mots.
- Suppression des stop-words, de la ponctuation et des éléments non essentiels à l’analyse.
- Lemmatisation vs racinisation (stemming).
Travaux pratiques
Preprocessing sur des corpus de textes avec les 2 librairies, comparaison des résultats et des façons d’implémenter. Création de listes de stop-words, comparaison lemmatisation et de racinisation.
Extraction d'informations
- Identification de la nature grammatical des mots à l’aide du Part Of Speech Tagging.
- Identifier des personnes, lieux etc avec le Named Entity Recognition.
Travaux pratiques
Mettre en place le Part Of Speech Tagging et le Named Entity Recognition. Analyse des résultats, filtres sur certaines catégories grammaticales, sur les noms propres.
Représentation vectorielle des données textuelles
- Bag of words.
- Pondération tf-idf.
- Approche avec des n-grams.
- Les embeddings : word2vec, gloVe, fastTesxt..
Travaux pratiques
Transformation d’un corpus de texte en utilisant différentes approches : bag of words, tf-idf, word2vec, gloVe.
Comparaison des vecteurs.
Machine learning sur des données textuelles
- Rappels sur les étapes de construction d'un modèle prédictif.
- Classification.
- Analyse de sentiment.
- Topic modelling.
Travaux pratiques
Modélisation en utilisant différents types de vecteurs (bag of words vs embeddings).
Analyse de sentiment sur des tweets.
Procédures d'évaluation de modèles
- Les techniques de rééchantillonnage en jeu d'apprentissage, de validation et de test.
- Test de représentativité des données d'apprentissage.
- Mesures de performance des modèles prédictifs.
- Matrice de confusion.
Travaux pratiques
Construire et évaluer un modèle NLP de façon appliquée..