MSO 3.1 — Technologies Informatiques du Big Data
Hadoop · Spark · MongoDB
Responsables du module : Stéphane Derrode & Lamia Derrode, Département Mathématiques et Informatique, Centrale Lyon
Objectifs¶
Ce module forme aux principales technologies du Big Data à travers :
- 2 cours de 2h sur les frameworks Hadoop et Spark
- 2 TPs de 4h : Hadoop avec MRJob, puis Spark avec PySpark
- 1 TP de 2h sur les librairies complémentaires de Spark (Spark Streaming, MLlib)
La partie MongoDB (M. Elöd Egyed-Zsigmond) n’est pas couverte sur cette page — voir directement l’espace Moodle Pedagogie3.
Évaluation¶
La note finale est la moyenne des 3 CRs de TP (MongoDB, Hadoop, Spark), à poids égal.
| Épreuve | Modalité | Coefficient | Échéance |
|---|---|---|---|
| CR TP MongoDB | Individuel, sur Pedagogie3 | 1/3 | [à préciser] |
| CR TP Hadoop MRJob | Individuel, zip (rapport + sources), sur Pedagogie3 | 1/3 | Fin de séance #2 |
| CR TP Spark | Individuel, zip (rapport + sources), sur Pedagogie3 | 1/3 | Fin de séance #4 |
Format des rendus : rapport en
.mdou.doc/.docx). Page de garde obligatoire (nom des étudiants, date, titre du TP, module, encadrant).Pas de CR pour la séance #5 (TP Spark Streaming / MLlib).
Pas d’examen final pour ce module — l’évaluation repose entièrement sur les 3 CRs.
Déroulé des séances¶
| # | Type | Durée | Sujet | Supports | Rendu |
|---|---|---|---|---|---|
| 1 | Cours | 2h | Framework Hadoop & MRJob | Slides Hadoop · Présentation du TP Hadoop | — |
| 2 | TP | 4h | Hadoop natif (hors multiplication de matrices) puis MRJob | TP Hadoop natif · TP Hadoop MRJob | CR MRJob uniquement |
| 3 | Cours | 2h | Framework Spark | Slides Spark · Présentation du TP Spark | — |
| 4 | TP | 4h | Spark avec PySpark | TP Spark | CR Spark |
| 5 | TP | 2h | Spark Streaming & MLlib | TP Spark Librairies | — |
Travail de préparation¶
Avant la séance #2 (TP Hadoop)¶
1. Installation Docker (obligatoire). Installer Docker et tirer le conteneur Hadoop/Spark préparé par l’enseignant :
⚠️ Téléchargement volumineux (~3 Go libres requis) — prévoir l’installation bien en avance. Procédure détaillée : guide d’installation Docker / Hadoop.
2. Prise de connaissance des énoncés. Parcourir les deux énoncés (TP Hadoop natif et TP Hadoop MRJob) pour arriver en séance avec une vue d’ensemble du travail à faire.
Avant la séance #4 (TP Spark)¶
- Réaliser la partie 1 du TP Spark (programmation fonctionnelle en Python)
- Commencer la partie 2 jusqu’à la section wordcount en Spark incluse
Consignes de rendu (CRs Hadoop MRJob et Spark)¶
- Format :
.mdou.pdf(pas de.doc/.docx) - Page de garde : noms des étudiants, date, titre du TP, nom du module, encadrant
- Contenu : synthétique, points-clés du code mis en exergue, résultats d’exécution résumés (quelques lignes si volumineux)
- Dépôt : un seul fichier compressé (rapport + sources) sur Pedagogie3, avant la fin de séance
Dernière mise à jour : mai 2026