TP : Spark Librairies

Auteurs

Stéphane Derrode & Lamia Derrode, Centrale Lyon, Dpt Mathématiques & Informatique.

Objectifs d’apprentissage¶

À l’issue de ce TP, vous saurez :

traiter des flux de données continus avec Spark Streaming et le concept de DStream ;
mettre en place un mini-pipeline temps réel (source netcat → traitement Spark → résultats à la seconde) ;
entraîner et évaluer des modèles de Machine Learning distribués avec MLlib :
- K-Means (clustering non supervisé) ;
- Régression logistique (classification de spams) ;
- Forêt aléatoire (classification supervisée).

Pré-requis¶

TP Spark terminé : vous savez écrire un script PySpark, le soumettre via spark-submit, manipuler des RDD.
Cluster Docker déjà installé (cf. page d’installation).
Notions de Machine Learning (clustering, classification supervisée).

Durée indicative¶

Spark Streaming (wordcount en flux) : 30 min
MLlib — prise en main + K-Means : 45 min
MLlib — régression logistique + forêt aléatoire : 45 min
Application — feux de forêt : 90 min

Livrable¶

À convenir avec votre enseignant. Typiquement : un dossier contenant les scripts modifiés et un court CR (texte ou Markdown) avec vos observations sur les résultats des algorithmes.

Aide-mémoire¶

Étapes du TP¶

Spark Streaming¶

Spark Streaming est une extension de la librairie principale de Spark, qui permet de traiter des flux continus de données. Suivez les consignes décrites dans ce fichier pour mettre en place une petite manip :

Spark Streaming

Spark MLlib¶

Spark.MLlib est une extension de la librairie principale de Spark, qui permet de développer des algorithmes de Machine Learning efficaces avec des données massives. Merci de suivre ce tutoriel pour expérimenter la librairie :

Spark MLlib