TP #3 Spark streaming et MLlib

Ce TP fait suite au TP #2 sur le framework Spark. Ce dernier est doté de librairies : Spark SQL, Spark streaming, MLlib et GraphX (cf Apache Spark). Nous allons effleurer, durant ces 2 heures, quelques possibilités offertes par Spark streaming et par MLlib.


Partie 1 - Spark streaming (30 minutes)

Spark streaming est une extension de la librairie principale de Spark, qui permet de traiter des flux continus de données. Suivez les consignes décrites dans ce fichier pour mettre en place une petite manip:

SparkStreaming_wc.md


Partie 2 - Spark.MLlib (90 minutes)

Spark.MLlib est une extension de la librairie principale de Spark, qui permet de développer des algorithmes de Machine Learning efficace avec des données massives. Merci de suivre ce tutoriel pour expérimenter la librairie:

SparkMLlib.md