Install MrJob
Installation et test de la librairie MrJob¶
Il s’agit ici d’exécuter l’exemple de script, vu en cours, permettant de compter les mots d’un livre en utilisant la librairie MRJob. Ici, on travaille sur sa propre machine, en local (et non pas sur le cluster Hadoop).
Commencez par installer cette librairie avec l’instruction pip:
Créez un répertoire sur votre DD, et déposez-y les 2 scripts vus en cours ainsi que le fichier dracula:
Puis testez:
Vérifiez, avec la commandecat resultInline.txt que le fichier contient bien le résultat escompté. Les symboles < et > sont des redirections en entrée et en sortie respectivement. Cette commande est identique à
le mode inline précisant que le job est lancé sur un seul process pour réaliser des tests.
Pour lancer le job sur plusieurs sous-process concurrents (en utilisant les différents cœurs de votre processeur), il faut utiliser le mode local: