TP : Spark
Auteurs
- Stéphane Derrode & Lamia Derrode, Centrale Lyon, Dpt Mathématiques & Informatique.
Objectifs d’apprentissage¶
À l’issue de ce TP, vous saurez :
- manipuler les fonctions de programmation fonctionnelle Python (map, filter, reduce) qui sont au cœur du paradigme Spark ;
- créer et transformer des RDD avec PySpark ;
- soumettre un job Spark en mode
clientoucluster, surlocal[N]ouyarn; - analyser un jeu de données réel (arbres remarquables de Paris, MovieLens) à l’aide d’opérations RDD chaînées.
Pré-requis¶
- Cours sur le framework Spark.
- Programmation Python de base.
- TP Hadoop natif (vous savez démarrer le cluster Docker et utiliser HDFS).
- Notions sur les fonctions lambda, les compréhensions de listes, les générateurs en Python.
Durée indicative¶
Programmation fonctionnelle : 45 min
Premier script PySpark : 30 min
Exercices (arbres + MovieLens) : 165 min
Livrable¶
À convenir avec votre enseignant. Typiquement : un compte rendu (PDF ou Markdown) avec votre code, vos requêtes et leurs résultats commentés. Voir détail dans l’énoncé du TP.
Aide-mémoire¶
Étapes du TP¶
Programmation fonctionnelle¶
Quelques exercices pour vous entraîner avec les fonctions map, reduce et filter :
Premier script PySpark¶
Pour lancer votre premier script PySpark, suivez les consignes :
Exercices à réaliser¶
Voici l’énoncé des exercices à réaliser :