Introduction à Apache Flink
- Historique du framework.
- Les différentes versions de Flink.
- Comparaison avec l'environnement Apache Hadoop et Apache Spark.
- Les différents modules de Flink.
Travaux pratiques
Installation et configuration de Flink. Exécution d'un premier exemple avec le comptage de mots.
Traitement de données à l'aide de l'API DataStream
- Environnement d'exécution et sources de données.
- Les transformations : Map, FlatMap, Filter, KeyBy, Reduce...
- Les opérations sur des flux multiples : Union, Cogroup, Connect, Join, Iterate...
- Les opérations sur Windows : Global, Tumbling, Sliding, Session...
- Le partitionnement physique personnalisé, aléatoire, rééquilibrage et redimensionnement.
- Les DataSink et les connecteurs : Kafka, X (anciennement Twitter), ElasticSerch...
Travaux pratiques
Consommation et manipulation de différents flux des données.
Traitement de données à l'aide de l'API Batch
- Les différents types de sources de données.
- Les transformations et agrégations.
- L'écriture des données.
- Les DataSink et les connecteurs : HDFS, S3, Avro, MongoDB.
Travaux pratiques
Manipulation de DataSets à partir de plusieurs sources de données.
Traitement de données à l'aide de l'API Table
- Enregistrement et lecture des tables enregistrées.
- Les opérateurs : sélection, filtre, jointure, orderBy...
- Utiliser du SQL sur le flux de données.
- Traitement des événements complexes.
Travaux pratiques
Mise en place d'une analyse avec SQL sur un flux de données.
API Flink Graph - Gelly
- Qu'est-ce qu'un graphe ?
- Les différentes opérations.
- Créer des graphes.
- Transformations de graphes.
- Présentation de différents algorithmes.
Travaux pratiques
Manipulation de l'API travers différents exemples.
Déploiement de Flink
- Flink sur YARN Configurations.
- Lancement et arrêt d'un cluster.
- Soumettre un travail à Flink.
- Flink sur Google Cloud.
- Flink sur AWS.
Travaux pratiques
Configurer un cluster multinœuds et déployer une application.