TP : Hadoop map-reduce avec la librairie MrJob
Auteurs
- Stéphane Derrode & Lamia Derrode, Centrale Lyon, Dpt Mathématiques & Informatique.
Objectifs d’apprentissage¶
À l’issue de ce TP, vous saurez :
- exploiter la librairie MrJob pour écrire des jobs map-reduce multi-étapes en Python pur ;
- chaîner plusieurs phases map / reduce via des
STEPSMrJob ; - exécuter un même algorithme MrJob en mode
inline,local(multi-cœurs) ouhadoop(cluster) ; - traiter un fichier de plus de 4 millions de lignes pour répondre à des questions d’analyse de données.
Pré-requis¶
- TP Hadoop natif (vous savez démarrer le cluster Docker et lancer un job Hadoop Streaming).
- Python 3 installé sur la machine, librairie
mrjobinstallée (pip install mrjob) pour la partie locale.
Durée indicative¶
Installation et test de MrJob en local : 20 min
Exercices d’analyse du fichier de ventes + anagrammes : 120 à 150 min
Lancement sur le cluster Hadoop : 15 min
Livrable¶
À convenir avec votre enseignant. Typiquement : un dossier contenant un fichier .py par question (q1.py, q2.py, etc.) et le résultat d’exécution correspondant.
Étapes du TP¶
Librairie MrJob¶
Installez et testez la librairie MrJob en local :
Répondez aux exercices de cet énoncé :
Testez un algorithme MrJob sur le cluster Hadoop :