Installation et test de la librairie MrJob¶
Il s’agit ici d’exécuter l’exemple de script, vu en cours, permettant de compter les mots d’un livre en utilisant la librairie MRJob. Ici, on travaille sur sa propre machine, en local (et non pas sur le cluster Hadoop).
Commencez par installer cette librairie avec l’instruction pip
:
pip install mrjob
Créez un répertoire sur votre DD, et déposez-y les 2 scripts vus en cours ainsi que le fichier dracula:
Puis testez:
python wc_mrjob_1.py < dracula > resultInline.txt
Vérifiez, avec la commande cat resultInline.txt
que le fichier contient bien le résultat escompté. Les symboles <
et >
sont des redirections en entrée et en sortie respectivement. Cette commande est identique à
python wc_mrjob_1.py -r inline < dracula > resultInline.txt
le mode inline précisant que le job est lancé sur un seul process pour réaliser des tests.
Pour lancer le job sur plusieurs sous-process concurrents (en utilisant les différents cœurs de votre processeur), il faut utiliser le mode local:
python wc_mrjob_1.py -r local < dracula > resultLocal.txt