Aller au contenu

TP : Spark

Auteurs


🎯 Objectifs d’apprentissage

À l’issue de ce TP, vous saurez :

  • manipuler les fonctions de programmation fonctionnelle Python (map, filter, reduce) qui sont au cœur du paradigme Spark ;
  • créer et transformer des RDD avec PySpark ;
  • soumettre un job Spark en mode client ou cluster, sur local[N] ou yarn ;
  • analyser un jeu de données réel (arbres remarquables de Paris, MovieLens) à l’aide d’opérations RDD chaînées.

📚 Pré-requis

  • Cours sur le framework Spark.
  • Programmation Python de base.
  • TP Hadoop natif (vous savez démarrer le cluster Docker et utiliser HDFS).
  • Notions sur les fonctions lambda, les compréhensions de listes, les générateurs en Python.

🕓 Durée indicative

  • 1⃣ Programmation fonctionnelle : 45 min
  • 2⃣ Premier script PySpark : 30 min
  • 3⃣ Exercices (arbres + MovieLens) : 165 min

📦 Livrable

À convenir avec votre enseignant. Typiquement : un compte rendu (PDF ou Markdown) avec votre code, vos requêtes et leurs résultats commentés. Voir détail dans l’énoncé du TP.

📚 Aide-mémoire



🚩 Étapes du TP

Programmation fonctionnelle

Quelques exercices pour vous entraîner avec les fonctions map, reduce et filter :

Premier script PySpark

Pour lancer votre premier script PySpark, suivez les consignes :

Exercices à réaliser

Voici l’énoncé des exercices à réaliser :