TP : Spark

Auteurs

Stéphane Derrode & Lamia Derrode, Centrale Lyon, Dpt Mathématiques & Informatique.

Objectifs d’apprentissage¶

À l’issue de ce TP, vous saurez :

manipuler les fonctions de programmation fonctionnelle Python (map, filter, reduce) qui sont au cœur du paradigme Spark ;
créer et transformer des RDD avec PySpark ;
soumettre un job Spark en mode client ou cluster, sur local[N] ou yarn ;
analyser un jeu de données réel (arbres remarquables de Paris, MovieLens) à l’aide d’opérations RDD chaînées.

Pré-requis¶

Cours sur le framework Spark.
Programmation Python de base.
TP Hadoop natif (vous savez démarrer le cluster Docker et utiliser HDFS).
Notions sur les fonctions lambda, les compréhensions de listes, les générateurs en Python.

Durée indicative¶

Programmation fonctionnelle : 45 min
Premier script PySpark : 30 min
Exercices (arbres + MovieLens) : 165 min

Livrable¶

À convenir avec votre enseignant. Typiquement : un compte rendu (PDF ou Markdown) avec votre code, vos requêtes et leurs résultats commentés. Voir détail dans l’énoncé du TP.

Aide-mémoire¶

PySpark RDD Cheat Sheet (PDF)

Étapes du TP¶

Programmation fonctionnelle¶

Quelques exercices pour vous entraîner avec les fonctions map, reduce et filter :

Étape #1 — 45 min.

Premier script PySpark¶

Pour lancer votre premier script PySpark, suivez les consignes :

Étape #2 — 30 min.

Exercices à réaliser¶

Voici l’énoncé des exercices à réaliser :

Étape #3 — 165 min.