TP : Hadoop map-reduce en environnement de production

Auteur

Objectifs

Ce TP fait suite au cours sur le framework libre et open source appelé Hadoop, développé et maintenu par la Fondation Apache. Il s’agit d’utiliser Hadoop et HDFS dans un environnement de type production, grâce à un container Docker.



Wordcount, en local

La première étape consiste à rapatrier des fichiers qui nous seront utiles:

Voici ensuite les consignes pour utiliser Hadoop sur votre machine (à l’aide de Docker):

Suivez enfin les consignes pour lancer l’algorithme map-reduce de comptage de mots en tant que job Hadoop:

Pour ceux qui en ont le temps, voici un exercice concernant la multiplication de matrices: