Aller au contenu

TP : Hadoop map-reduce avec la librairie MrJob

Auteurs


🎯 Objectifs d’apprentissage

À l’issue de ce TP, vous saurez :

  • exploiter la librairie MrJob pour écrire des jobs map-reduce multi-étapes en Python pur ;
  • chaîner plusieurs phases map / reduce via des STEPS MrJob ;
  • exécuter un même algorithme MrJob en mode inline, local (multi-cœurs) ou hadoop (cluster) ;
  • traiter un fichier de plus de 4 millions de lignes pour répondre à des questions d’analyse de données.

📚 Pré-requis

  • TP Hadoop natif (vous savez démarrer le cluster Docker et lancer un job Hadoop Streaming).
  • Python 3 installé sur la machine, librairie mrjob installée (pip install mrjob) pour la partie locale.

🕓 Durée indicative

  • 1⃣ Installation et test de MrJob en local : 20 min
  • 2⃣ Exercices d’analyse du fichier de ventes + anagrammes : 120 à 150 min
  • 3⃣ Lancement sur le cluster Hadoop : 15 min

📦 Livrable

À convenir avec votre enseignant. Typiquement : un dossier contenant un fichier .py par question (q1.py, q2.py, etc.) et le résultat d’exécution correspondant.



🚩 Étapes du TP

Librairie MrJob

Installez et testez la librairie MrJob en local :

Répondez aux exercices de cet énoncé :

Testez un algorithme MrJob sur le cluster Hadoop :