Aller au contenu

TP : Spark Librairies

Auteurs


🎯 Objectifs d’apprentissage

À l’issue de ce TP, vous saurez :

  • traiter des flux de données continus avec Spark Streaming et le concept de DStream ;
  • mettre en place un mini-pipeline temps réel (source netcat → traitement Spark → résultats à la seconde) ;
  • entraîner et évaluer des modèles de Machine Learning distribués avec MLlib :
    • K-Means (clustering non supervisé) ;
    • Régression logistique (classification de spams) ;
    • Forêt aléatoire (classification supervisée).

📚 Pré-requis

  • TP Spark terminé : vous savez écrire un script PySpark, le soumettre via spark-submit, manipuler des RDD.
  • Cluster Docker déjà installé (cf. page d’installation).
  • Notions de Machine Learning (clustering, classification supervisée).

🕓 Durée indicative

  • 1⃣ Spark Streaming (wordcount en flux) : 30 min
  • 2⃣ MLlib — prise en main + K-Means : 45 min
  • 3⃣ MLlib — régression logistique + forêt aléatoire : 45 min
  • ✏ Application — feux de forêt : 90 min

📦 Livrable

À convenir avec votre enseignant. Typiquement : un dossier contenant les scripts modifiés et un court CR (texte ou Markdown) avec vos observations sur les résultats des algorithmes.

📚 Aide-mémoire



🚩 Étapes du TP

Spark Streaming

Spark Streaming est une extension de la librairie principale de Spark, qui permet de traiter des flux continus de données. Suivez les consignes décrites dans ce fichier pour mettre en place une petite manip :

Spark MLlib

Spark.MLlib est une extension de la librairie principale de Spark, qui permet de développer des algorithmes de Machine Learning efficaces avec des données massives. Merci de suivre ce tutoriel pour expérimenter la librairie :