TP #3 - Spark

Ce TP fait suite au cours sur le framework Apache Spark, développé et maintenu par la Fondation Apache.


Partie 1 - Programmation fonctionnelle en Python

Travail à faire Programmez un algorithme qui calcule le nombre de secondes à partir d’une heure donnée dans le format suivant : hh:mm:ss. Ainsi 8:19:22 donnera 29962 secondes.

Développez une première version itérative python structurée, puis une version python fonctionnelle de l’algorithme (utilisation des fonctions map(…) et reduce(…)).


Partie 2 - Tests de Spark, avec la librairie pyspark

Pour lancer votre premier script pyspsark, suivez les consignes exposées dans le fichier :

Test_Spark.md


Partie 3 - Programmez avec pyspark

Le travail à réaliser durant la séance de TP est présenté dans le fichier :

Enonce_TP_Spark.md

Ce dernier contient également l’énoncé de l’exercice à réaliser pour le CR.