Aller au contenu

MSO 3.1 — Technologies Informatiques du Big Data

Hadoop · Spark · MongoDB


Responsables du module : Stéphane Derrode & Lamia Derrode, Département Mathématiques et Informatique, Centrale Lyon


Objectifs

Ce module forme aux principales technologies du Big Data à travers :

  • 2 cours de 2h sur les frameworks Hadoop et Spark
  • 2 TPs de 4h : Hadoop avec MRJob, puis Spark avec PySpark
  • 1 TP de 2h sur les librairies complémentaires de Spark (Spark Streaming, MLlib)

La partie MongoDB (M. Elöd Egyed-Zsigmond) n’est pas couverte sur cette page — voir directement l’espace Moodle Pedagogie3.


Évaluation

La note finale est la moyenne des 3 CRs de TP (MongoDB, Hadoop, Spark), à poids égal.

Épreuve Modalité Coefficient Échéance
CR TP MongoDB Individuel, sur Pedagogie3 1/3 [à préciser]
CR TP Hadoop MRJob Individuel, zip (rapport + sources), sur Pedagogie3 1/3 Fin de séance #2
CR TP Spark Individuel, zip (rapport + sources), sur Pedagogie3 1/3 Fin de séance #4

Format des rendus : rapport en .md ou .pdf uniquement (pas de .doc / .docx). Page de garde obligatoire (nom des étudiants, date, titre du TP, module, encadrant).

Pas de CR pour la séance #5 (TP Spark Streaming / MLlib).

Pas d’examen final pour ce module — l’évaluation repose entièrement sur les 3 CRs.


Déroulé des séances

# Type Durée Sujet Supports Rendu
1 Cours 2h Framework Hadoop & MRJob Slides Hadoop · Présentation du TP Hadoop
2 TP 4h Hadoop natif (hors multiplication de matrices) puis MRJob TP Hadoop natif · TP Hadoop MRJob CR MRJob uniquement
3 Cours 2h Framework Spark Slides Spark · Présentation du TP Spark
4 TP 4h Spark avec PySpark TP Spark CR Spark
5 TP 2h Spark Streaming & MLlib TP Spark Librairies

Travail de préparation

Avant la séance #2 (TP Hadoop)

1. Installation Docker (obligatoire). Installer Docker et tirer le conteneur Hadoop/Spark préparé par l’enseignant :

docker pull stephanederrode/docker-cluster-hadoop-spark-python-16:3.6

⚠️ Téléchargement volumineux (~3 Go libres requis) — prévoir l’installation bien en avance. Procédure détaillée : guide d’installation Docker / Hadoop.

2. Prise de connaissance des énoncés. Parcourir les deux énoncés (TP Hadoop natif et TP Hadoop MRJob) pour arriver en séance avec une vue d’ensemble du travail à faire.

Avant la séance #4 (TP Spark)

  • Réaliser la partie 1 du TP Spark (programmation fonctionnelle en Python)
  • Commencer la partie 2 jusqu’à la section wordcount en Spark incluse

Consignes de rendu (CRs Hadoop MRJob et Spark)

  • Format : .md ou .pdf (pas de .doc / .docx)
  • Page de garde : noms des étudiants, date, titre du TP, nom du module, encadrant
  • Contenu : synthétique, points-clés du code mis en exergue, résultats d’exécution résumés (quelques lignes si volumineux)
  • Dépôt : un seul fichier compressé (rapport + sources) sur Pedagogie3, avant la fin de séance

Dernière mise à jour : mai 2026