TP : Hadoop map-reduce avec la librairie MrJob

Auteurs

Stéphane Derrode & Lamia Derrode, Centrale Lyon, Dpt Mathématiques & Informatique.

Objectifs d’apprentissage¶

À l’issue de ce TP, vous saurez :

exploiter la librairie MrJob pour écrire des jobs map-reduce multi-étapes en Python pur ;
chaîner plusieurs phases map / reduce via des STEPS MrJob ;
exécuter un même algorithme MrJob en mode inline, local (multi-cœurs) ou hadoop (cluster) ;
traiter un fichier de plus de 4 millions de lignes pour répondre à des questions d’analyse de données.

Pré-requis¶

TP Hadoop natif (vous savez démarrer le cluster Docker et lancer un job Hadoop Streaming).
Python 3 installé sur la machine, librairie mrjob installée (pip install mrjob) pour la partie locale.

Durée indicative¶

Installation et test de MrJob en local : 20 min
Exercices d’analyse du fichier de ventes + anagrammes : 120 à 150 min
Lancement sur le cluster Hadoop : 15 min

Livrable¶

À convenir avec votre enseignant. Typiquement : un dossier contenant un fichier .py par question (q1.py, q2.py, etc.) et le résultat d’exécution correspondant.

Étapes du TP¶

Librairie MrJob¶

Installez et testez la librairie MrJob en local :

Étape #1 — Installation et premier test

Répondez aux exercices de cet énoncé :

Étape #2 — Énoncé des exercices

Testez un algorithme MrJob sur le cluster Hadoop :

Étape #3 — MrJob sur le cluster