> Formations > Technologies numériques > Intelligence Artificielle, Big Data > Big Data > Formation Hadoop, installation et administration > Formations > Technologies numériques > Formation Hadoop, installation et administration

Formation : Hadoop, installation et administration

Hadoop, installation et administration

Télécharger le programme Partager cette formation


La plateforme Apache Hadoop est la première solution a avoir réellement rendu possibles des traitements (distribués) sur d'énormes quantités de données. Ce cours vous montrera comment installer, configurer et administrer un cluster Hadoop ainsi que d'autres composants de l'écosystème (Hive, Pig, HBase, Flume...).


Inter
Intra
Sur mesure

Cours pratique en présentiel ou en classe à distance

Réf. HOD
Prix : 2920 € H.T.
  4j - 28h00
Pauses-café et
déjeuners offerts




La plateforme Apache Hadoop est la première solution a avoir réellement rendu possibles des traitements (distribués) sur d'énormes quantités de données. Ce cours vous montrera comment installer, configurer et administrer un cluster Hadoop ainsi que d'autres composants de l'écosystème (Hive, Pig, HBase, Flume...).

Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
  • Découvrir les concepts et les enjeux liés à Hadoop
  • Comprendre le fonctionnement de la plateforme et de ses composants
  • Installer la plateforme et la gérer
  • Optimiser la plateforme

Public concerné
Administrateurs de cluster Hadoop, développeurs.

Prérequis
Bonnes connaissances de l'administration Linux. Expérience requise.
Vérifiez que vous avez les prérequis nécessaires pour profiter pleinement de cette formation en faisant  ce test.

Programme de la formation

Présentation du framework Apache Hadoop

  • Enjeux du Big Data et apports du framework Hadoop.
  • Présentation de l'architecture Hadoop.
  • Description des principaux composants de la plateforme Hadoop.
  • Présentation des distributions principales du marché on-premise et on-Cloud, et l’approche hybride.
  • Avantages/inconvénients de la plateforme vs les solutions alternatives.
  • Synthèse des différents composants natifs, complémentaires, et comparatif (Storm, Flink, Spark…).

Préparations et configuration du cluster Hadoop

  • Principes de fonctionnement de Hadoop Distributed File System (HDFS).
  • Principes de fonctionnement de MapReduce.
  • Design "type" du cluster.
  • Critères de choix du matériel.
Travaux pratiques
Configuration du cluster Hadoop.

Installation d'une plateforme Hadoop

  • Type de déploiement.
  • Installation d'Hadoop.
  • Installation d'autres composants (Hive, Pig, HBase, Nifi...).
  • Présentation et comparatif des piles logicielles historiques (HDP, HDF, CDH) et actuelles (CDP/CDSW…).
  • Architectures Kappa, Lambda, SMACK (Spark, Mesos, Akka, Cassandra, Kafka).
Travaux pratiques
Installation d'une plateforme Hadoop et des composants principaux.

Gestion d'un cluster Hadoop

  • Gestion des nœuds du cluster Hadoop.
  • MapReduce V2 (Yarn, Resource Manager, Application Master, Node Manager…).
  • Gestionnaires de ressources (Yarn vs Mesos).
  • Gestion des tâches via les schedulers.
  • Gestion des logs.
  • Ordonnancement des traitements (Oozie...).
  • Utiliser un manager.
Travaux pratiques
Lister les jobs, statut des queues, statut des jobs, gestion des tâches, accès à la Web UI.

Gestion des données dans HDFS

  • Import de données externes (fichiers, bases de données relationnelles) vers HDFS.
  • Manipulation des fichiers HDFS.
  • Les formats de fichiers (SequenceFile, ORC, Parquet…), leurs usages et leurs relations avec les performances.
  • Le stockage sous forme de base de données (structurée ou non) : NoSQL Hbase, SQL avec Impala, Hive, Hive LLAP…
Travaux pratiques
Importer des données externes avec Flume ou Nifi, importer des données des bases de données relationnelles avec Sqoop.

Configuration avancée

  • Autorisations et sécurité : administration, authentification, autorisations, audit, protection des données.
  • Les composants impliqués dans la sécurité : Ranger, Knox, Kerberos, KMS...
  • NameNode high availability (MRV2/YARN).
Travaux pratiques
Configuration d'un service-level authentication (SLA) et d'un Access Control List (ACL).

Monitoring et optimisation/Tuning

  • Monitoring (Ambari, Cloudera Manager, Ganglia...).
  • Les types de benchmark (DFSIO, Teragen/TeraSort/TeraValidate) et les résultats disponibles en ligne (TPCx-HS, …)
  • Comparatif entre MapReduce et TEZ.
  • Exemples d’optimisation et d’outils d’aide à l’optimisation (CDP advisor…).
  • Choix de la taille des blocs.
  • Autres options de tuning (utilisation de la compression, configuration mémoire...).
Travaux pratiques
Paramétrer, lancer et analyser des Bench, Appréhender les commandes au fil de l'eau de monitoring et d'optimisation de cluster.

Les apports de Hadoop v3

  • Les approches de type stockage Objet (Ozone).
  • Erasure coding.
  • Yarn Federation.
  • Scénarios de migration, les aspects à prendre en compte, et quelques exemples (Hortonworks vers Cloudera...).


Modalités pratiques
Travaux pratiques
Installation du cluster Hadoop et paramétrage.
Méthodes pédagogiques;
Méthode pédagogique de type "magistral" avec des exercices pratiques à l'appui, après chaque notion ou groupe de notions exposées.

Modalités d'évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.

Solutions de financement
Pour trouver la meilleure solution de financement adaptée à votre situation : contactez votre conseiller formation.
Il vous aidera à choisir parmi les solutions suivantes :
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation.
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • France Travail sous réserve de l’acceptation de votre dossier par votre conseiller France Travail.
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation.
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • France Travail sous réserve de l’acceptation de votre dossier par votre conseiller France Travail.

Avis clients
5 / 5
Les avis clients sont issus des évaluations de fin de formation. La note est calculée à partir de l’ensemble des évaluations datant de moins de 12 mois. Seules celles avec un commentaire textuel sont affichées.
FRANÇOIS B.
01/10/24
5 / 5

Très bonne, très bon équilibre, formateur passionné
ERIC M.
24/10/23
5 / 5

Très bonne pédagogie avec un support très clair et des exercices très équilibrés.
STEPHANE R.
24/10/23
5 / 5

Formation fort sympathique et dynamique par un passionné du sujet. Excellent




Horaires
En présentiel, les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45. Les pauses et déjeuners sont offerts.
En classe à distance, la formation démarre à partir de 9h.
Pour les stages pratiques de 4 ou 5 jours, quelle que soit la modalité, les sessions se terminent à 16h le dernier jour.

Dates et lieux
Sélectionnez votre lieu ou optez pour la classe à distance puis choisissez votre date.
Classe à distance