TP Big Data (French)

Auteur : Stéphane Derrode — Centrale Lyon, Dpt Mathématiques & Informatique.

Cet espace recueille l’ensemble des travaux pratiques concernant les données massives. Ces TPs sont enseignés dans plusieurs formations : Centrale Lyon 3A (MOD 2.1 et MSO 3.1), Centrale Digital Lab, École Centrale de Casablanca.

Avant de commencer¶

Tous les TPs Hadoop / Spark utilisent un mini-cluster fourni sous forme de conteneur Docker (1 master + 2 slaves). L’installation et le démarrage sont décrits une seule fois ici :

Lancer le cluster — installation, démarrage, arrêt, premiers pas.
Dépannage (FAQ) — erreurs les plus fréquentes et leur résolution.

TPs Hadoop & Spark¶

TP	Description	Pré-requis
Hadoop natif	Premier wordcount map-reduce, en local puis sur le cluster, via Hadoop Streaming.	Cours Hadoop
Hadoop avec MrJob	Algorithmes map-reduce multi-étapes en Python avec la librairie MrJob.	TP Hadoop natif
Examen Hadoop MrJob	Sujet d’examen — exercices supplémentaires sur fichier de ventes.	TP MrJob
Spark (RDD)	Programmation fonctionnelle, PySpark, premier traitement RDD sur jeu de données réel.	Cours Spark
Librairies Spark	Spark Streaming et MLlib (K-means, régression logistique, forêt aléatoire).	TP Spark

Autres TPs¶

TP	Description
Linked Open Data	Requêtes SPARQL sur des sources de données ouvertes (DBPedia, Wikidata, etc.).
MapReduce (théorie)	TP papier-crayon sur le modèle de calcul MapReduce.
Décision bayésienne	Classification d’images bruitées par décision bayésienne.
Chaînes de Markov cachées	TP sur les HMC : segmentation de signaux.

Annexes¶

Sources & versions¶

Cluster Docker : image stephanederrode/docker-cluster-hadoop-spark-python:5.0 (Hadoop 3.5.0, Spark 4.1.1, OpenJDK 17, Python 3).
Repo des sources Docker : https://gitlab.ec-lyon.fr/sderrode/hadoop-cluster-docker.
Repo des énoncés (ce site) : https://gitlab.ec-lyon.fr/sderrode/tp_bigdata_french.