Mise en place du cluster Hadoop¶

Contexte pédagogique¶

Pour ce TP — et tous les TPs Hadoop / Spark qui suivent — nous travaillons dans un mini-cluster qui simule un environnement de production : un nœud maître (NameNode HDFS, ResourceManager YARN) et deux nœuds esclaves (DataNodes, NodeManagers).

Plutôt que d’installer Hadoop directement sur ta machine (procédure longue et capricieuse, qui dépend de l’OS, de la version de Java, des chemins, etc.), tu vas exploiter un conteneur Docker qui embarque l’ensemble configuré et prêt à l’emploi. Cela permet :

d’avoir exactement le même environnement que tes camarades, indépendamment de Mac / Windows / Linux ;
de pouvoir tout supprimer (docker compose down -v) et repartir de zéro en quelques secondes ;
de te concentrer sur la programmation map-reduce, pas sur l’administration système.

L’image utilisée est largement adaptée des projets de Lilia Sfaxi et Kai Liu, modernisée pour Hadoop 3.5.0 / Spark 4.1.1 / Java 17.

Procédure d’installation et de démarrage¶

L’installation et le démarrage du cluster sont décrits une seule fois sur ce site, dans la page :

Lancer le cluster¶

Suis cette page jusqu’à voir tous les ✓ du script check-cluster.sh, puis reviens ici pour passer à l’étape suivante du TP.