Table des Matières
Test de MrJob sur le cluster Hadoop¶
Nous allons ici faire fonctionner à nouveau l’algorithme de comptage de mots sur le cluster Hadoop.
Relancer le cluster¶
Il vous faut, dans un premier temps, relancer le cluster que nous avions installé lors du précédent TP, avec son Namenode et ses deux Datanodes. Tout d’abord, lancez le logiciel Docker Desktop (pour lancer les daemons de Docker). Puis, dans un Terminal, tapez
docker start hadoop-master hadoop-slave1 hadoop-slave2
Entrez alors dans le bash du Namenode
docker exec -it hadoop-master bash
Vérifiez enfin que HDFS est bien monté, avec la commande
hadoop fs -ls
Supprimez le répertoire sortie sur HDFS
hadoop fs -rm -r -f sortie
N’oubliez pas de faire cette dernière commande entre deux exécutions.
Lancer un algorithme sur le cluster¶
- Déplacez vous-vous dans le répertoire:
cd ~/TP_Hadoop/wordcount
- Lancez le job sur le cluster Hadoop:
python wc_mrjob_1.py -r hadoop < dracula > resultHadoop.txt
Cette dernière commande permet bien de lancer le job sur le cluster hadoop, mais exploite le fichier d’entrée (ici dracula) en local (celui qui se trouve dans votre répertoire actuel de travail), et non le fichier stocké sur HDFS.
Voici la commande pour accéder au fichier dracula stocké dans le répertoire input sur HDFS :
python wc_mrjob_1.py -r hadoop hdfs:///user/root/input/dracula > resultHadoop.txt
Remarque: Il est également possible de lancer un job sur EMR (Amazon Web Services) ou Dataproc (Google cloud).