MSO 3.1: Technologies Informatiques du Big Data

Auteurs

Stéphane Derrode & Lamia Derrode, Centrale Lyon, Dpt Mathématiques & Informatique.

Objectifs

Cet espace recueille les supports de cours et les fichiers nécessaires à la réalisation des travaux pratiques du module MSO 31 de Technologies Informatiques du Big Data, enseignés dans la filière Informatique (3A) de Centrale Lyon.

Cette page ne traite que des enseignements que nous réalisons dans ce module. Les informations concernant les bases de données MongoDB (cours de M. Elöd Egyed-Zsigmond) sont disponibles sur l’espace moodle associé à ce cours (sur pedagogie3.ec-lyon.fr).

Table des matières

Informations
- Recapitulatif des seances de cours et de TP
- Evaluation
Deroule des seances

Informations¶

Recapitulatif des seances de cours et de TP¶

2 séances de 2h de cours.
2 séances de TP de 4h (Hadoop avec la librairie MRJob, et Spark avec la librairie PySpark), et une séance de TP de 2h (compléments sur Spark : librairies MLlib et SparkStreaming).

Evaluation¶

La note finale est constituée de la moyenne des 3 notes de Tps (mongoDB, Hadoop, Spark), évalués grâce à vos Comptes-Rendus (CRs).
Les 2 CRs associés à Hadoop et Spark doivent être déposés sur l’espace moodle de ce cours sur pedagogie3.ec-lyon.fr (le travail à réaliser est spécifié ci-dessous), avant la fin de séance.

Deroule des seances¶

Seance #1 (2h) - cours Hadoop¶

Objectif du cours
- Présentation du framework Hadoop/map-reduce avec la librarie MRJob slides.
- Présentation du TP Hadoop MRJob natif qui se déroulera en séance #2.
Travail de préparation en vue du TP
- En préparation au TP, selon les consignes données dans ce lien, installez le logiciel Docker sur vos machines et le container Docker Linux/Hadoop que j’ai préparé (avec la commande docker pull stephanederrode/docker-cluster-hadoop-spark-python-16:3.6). Attention, le téléchargement est très volumineux et nécessite une machine avec au moins 3GO libre de disque dur. Prenez-vous en avance pour faire cette installation !

Seance #2 (4h) - TP Hadoop¶

Travaux pratiques
- Réalisez le TP Hadoop natif (sans réaliser l’exercice sur la multiplication de matrices), puis
- Réalisez le TP Hadoop MRJob et préparez un CR de votre travail. Vous déposerez ce CR sur pedagogie3.ec-lyon.fr avant la fin de séance (un seul fichier compressé contenant le rapport et les codes sources).
- Le rapport doit être synthétique, mettre en exergue les points-clés de votre code, et montrer les résultats d’exécution (juste quelques lignes si le résultat est volumineux). Le rapport sera nécessairement au format md (markdown) ou au format pdf (et non doc ou docx), et devra contenir une page de garde (nom du/des étudiants, date, titre TP et du module, nom de l’encadrant…).

Seance #3 (2h) - cours Spark¶

Objectif du cours
- Présentation du framework Spark slides.
- Présentation du TP Spark qui se déroulera en séance #4.
Travail de préparation en vue du TP
- Réalisez la partie 1 du TP Spark, concernant la programmation fonctionnelle en Python.
- Commencez la partie 2, jusqu’à la section wordcount en Spark (y compris cette section).

Seance #4 (4h) - TP Spark¶

Travaux pratiques
- Réalisez le TP Spark. Un CR de TP doit être remis avant la fin de séance (mêmes consignes que le CR précédent).

Seance #5 (2h) - TP avec les librairies Spark streaming et MLlib¶

Travaux pratiques
- Réalisez le TP Spark Librairies. Il n’y a pas de CR prévu pour cette dernière séance.