MSO 3.1 — Technologies Informatiques du Big Data

Hadoop · Spark · MongoDB

Responsables du module : Stéphane Derrode & Lamia Derrode, Département Mathématiques et Informatique, Centrale Lyon

Objectifs¶

Ce module forme aux principales technologies du Big Data à travers :

2 cours de 2h sur les frameworks Hadoop et Spark
2 TPs de 4h : Hadoop avec MRJob, puis Spark avec PySpark
1 TP de 2h sur les librairies complémentaires de Spark (Spark Streaming, MLlib)

La partie MongoDB (M. Elöd Egyed-Zsigmond) n’est pas couverte sur cette page — voir directement l’espace Moodle Pedagogie3.

Évaluation¶

La note finale est la moyenne des 3 CRs de TP (MongoDB, Hadoop, Spark), à poids égal.

Épreuve	Modalité	Coefficient	Échéance
CR TP MongoDB	Individuel, sur Pedagogie3	1/3	[à préciser]
CR TP Hadoop MRJob	Individuel, zip (rapport + sources), sur Pedagogie3	1/3	Fin de séance #2
CR TP Spark	Individuel, zip (rapport + sources), sur Pedagogie3	1/3	Fin de séance #4

Format des rendus : rapport en .md ou .pdf uniquement (pas de .doc / .docx). Page de garde obligatoire (nom des étudiants, date, titre du TP, module, encadrant).

Pas de CR pour la séance #5 (TP Spark Streaming / MLlib).

Pas d’examen final pour ce module — l’évaluation repose entièrement sur les 3 CRs.

Déroulé des séances¶

#	Type	Durée	Sujet	Supports	Rendu
1	Cours	2h	Framework Hadoop & MRJob	Slides Hadoop · Présentation du TP Hadoop	—
2	TP	4h	Hadoop natif (hors multiplication de matrices) puis MRJob	TP Hadoop natif · TP Hadoop MRJob	CR MRJob uniquement
3	Cours	2h	Framework Spark	Slides Spark · Présentation du TP Spark	—
4	TP	4h	Spark avec PySpark	TP Spark	CR Spark
5	TP	2h	Spark Streaming & MLlib	TP Spark Librairies	—

Travail de préparation¶

Avant la séance #2 (TP Hadoop)¶

1. Installation Docker (obligatoire). Installer Docker et tirer le conteneur Hadoop/Spark préparé par l’enseignant :

docker pull stephanederrode/docker-cluster-hadoop-spark-python-16:3.6

⚠️ Téléchargement volumineux (~3 Go libres requis) — prévoir l’installation bien en avance. Procédure détaillée : guide d’installation Docker / Hadoop.

2. Prise de connaissance des énoncés. Parcourir les deux énoncés (TP Hadoop natif et TP Hadoop MRJob) pour arriver en séance avec une vue d’ensemble du travail à faire.

Avant la séance #4 (TP Spark)¶

Réaliser la partie 1 du TP Spark (programmation fonctionnelle en Python)
Commencer la partie 2 jusqu’à la section wordcount en Spark incluse

Consignes de rendu (CRs Hadoop MRJob et Spark)¶

Format : .md ou .pdf (pas de .doc / .docx)
Page de garde : noms des étudiants, date, titre du TP, nom du module, encadrant
Contenu : synthétique, points-clés du code mis en exergue, résultats d’exécution résumés (quelques lignes si volumineux)
Dépôt : un seul fichier compressé (rapport + sources) sur Pedagogie3, avant la fin de séance

Dernière mise à jour : mai 2026