Test MrJob Hadoop

Table des Matières

Test de MrJob sur le cluster Hadoop
- Relancer le cluster
- Lancer un algorithme sur le cluster

Test de MrJob sur le cluster Hadoop¶

Nous allons ici faire fonctionner à nouveau l’algorithme de comptage de mots sur le cluster Hadoop.

Relancer le cluster¶

Il vous faut, dans un premier temps, relancer le cluster que nous avions installé lors du précédent TP, avec son Namenode et ses deux Datanodes. Tout d’abord, lancez le logiciel Docker Desktop (pour lancer les daemons de Docker). Puis, dans un Terminal, tapez

docker start hadoop-master hadoop-slave1 hadoop-slave2

Entrez alors dans le bash du Namenode

docker exec -it hadoop-master bash

Vérifiez enfin que HDFS est bien monté, avec la commande

hadoop fs -ls

Supprimez le répertoire sortie sur HDFS

hadoop fs -rm -r -f sortie

N’oubliez pas de faire cette dernière commande entre deux exécutions.

Lancer un algorithme sur le cluster¶

Déplacez vous-vous dans le répertoire:

cd ~/TP_Hadoop/wordcount

Lancez le job sur le cluster Hadoop:

python wc_mrjob_1.py -r hadoop < dracula > resultHadoop.txt

Cette dernière commande permet bien de lancer le job sur le cluster hadoop, mais exploite le fichier d’entrée (ici dracula) en local (celui qui se trouve dans votre répertoire actuel de travail), et non le fichier stocké sur HDFS.

Voici la commande pour accéder au fichier dracula stocké dans le répertoire input sur HDFS :

python wc_mrjob_1.py -r hadoop hdfs:///user/root/input/dracula > resultHadoop.txt

Remarque: Il est également possible de lancer un job sur EMR (Elastic Map Reduce) de Amazon Web Services(AWS) ou Dataproc de Google cloud.