TP Big Data (French)
Auteur : Stéphane Derrode — Centrale Lyon, Dpt Mathématiques & Informatique.
Cet espace recueille l’ensemble des travaux pratiques concernant les données massives. Ces TPs sont enseignés dans plusieurs formations : Centrale Lyon 3A (MOD 2.1 et MSO 3.1), Centrale Digital Lab, École Centrale de Casablanca.
Avant de commencer¶
Tous les TPs Hadoop / Spark utilisent un mini-cluster fourni sous forme de conteneur Docker (1 master + 2 slaves). L’installation et le démarrage sont décrits une seule fois ici :
Lancer le cluster — installation, démarrage, arrêt, premiers pas.
Dépannage (FAQ) — erreurs les plus fréquentes et leur résolution.
TPs Hadoop & Spark¶
| TP | Description | Pré-requis |
|---|---|---|
| Hadoop natif | Premier wordcount map-reduce, en local puis sur le cluster, via Hadoop Streaming. | Cours Hadoop |
| Hadoop avec MrJob | Algorithmes map-reduce multi-étapes en Python avec la librairie MrJob. | TP Hadoop natif |
| Examen Hadoop MrJob | Sujet d’examen — exercices supplémentaires sur fichier de ventes. | TP MrJob |
| Spark (RDD) | Programmation fonctionnelle, PySpark, premier traitement RDD sur jeu de données réel. | Cours Spark |
| Librairies Spark | Spark Streaming et MLlib (K-means, régression logistique, forêt aléatoire). | TP Spark |
Autres TPs¶
| TP | Description |
|---|---|
| Linked Open Data | Requêtes SPARQL sur des sources de données ouvertes (DBPedia, Wikidata, etc.). |
| MapReduce (théorie) | TP papier-crayon sur le modèle de calcul MapReduce. |
| Décision bayésienne | Classification d’images bruitées par décision bayésienne. |
| Chaînes de Markov cachées | TP sur les HMC : segmentation de signaux. |
Annexes¶
Sources & versions¶
- Cluster Docker : image
stephanederrode/docker-cluster-hadoop-spark-python:5.0(Hadoop 3.5.0, Spark 4.1.1, OpenJDK 17, Python 3). - Repo des sources Docker : https://gitlab.ec-lyon.fr/sderrode/hadoop-cluster-docker.
- Repo des énoncés (ce site) : https://gitlab.ec-lyon.fr/sderrode/tp_bigdata_french.