Aller au contenu

⬅ Retour au site principal

TP Big Data (French)

Auteur : Stéphane Derrode — Centrale Lyon, Dpt Mathématiques & Informatique.

Cet espace recueille l’ensemble des travaux pratiques concernant les données massives. Ces TPs sont enseignés dans plusieurs formations : Centrale Lyon 3A (MOD 2.1 et MSO 3.1), Centrale Digital Lab, École Centrale de Casablanca.


🚀 Avant de commencer

Tous les TPs Hadoop / Spark utilisent un mini-cluster fourni sous forme de conteneur Docker (1 master + 2 slaves). L’installation et le démarrage sont décrits une seule fois ici :


📚 TPs Hadoop & Spark

TP Description Pré-requis
Hadoop natif Premier wordcount map-reduce, en local puis sur le cluster, via Hadoop Streaming. Cours Hadoop
Hadoop avec MrJob Algorithmes map-reduce multi-étapes en Python avec la librairie MrJob. TP Hadoop natif
Examen Hadoop MrJob Sujet d’examen — exercices supplémentaires sur fichier de ventes. TP MrJob
Spark (RDD) Programmation fonctionnelle, PySpark, premier traitement RDD sur jeu de données réel. Cours Spark
Librairies Spark Spark Streaming et MLlib (K-means, régression logistique, forêt aléatoire). TP Spark

🔬 Autres TPs

TP Description
Linked Open Data Requêtes SPARQL sur des sources de données ouvertes (DBPedia, Wikidata, etc.).
MapReduce (théorie) TP papier-crayon sur le modèle de calcul MapReduce.
Décision bayésienne Classification d’images bruitées par décision bayésienne.
Chaînes de Markov cachées TP sur les HMC : segmentation de signaux.

📑 Annexes


⚙ Sources & versions