TP Big Data, ECC¶
Cet espace recueille les fichiers de cours et TP du module Technologies Informatique du Big Data, enseigné à l’École Centrale de Casablanca. Tous les rendus de TP se feront sur le site edunao.
Stéphane Derrode, École Centrale de Lyon, Dpt MI, LIRIS (CNRS UMR 5205).
Informations générales¶
- 6 séances de 4h, réparties en 2 phases (18-20 décembre 2023 et 15-17 janvier 2024).
Slides des cours:
Des compte-rendus de TPs à rendre.
- Une Fiche de Synthèse (FS) à rédiger sur un sujet associé au big data. Les consignes sont disponibles dans ce répertoire et seront présentées lors de la première séance.
Déroulé des séances¶
Séance #1 (18.12.2023) - Introduction au Big Data et à l’Open Data¶
-
Objectif du cours
- Présentation des objectifs du module.
- Introduction au Big Data: enjeux éthiques, économiques & scientifiques.
- Question Wooclap
- Présentation de la Fiche de Synthèse (FS), à rédiger par groupe de 4 à 5 étudiants. Celle-ci doit être préparée tout au long du module, la date de remise est fixée à la date de la dernière séance de cours. Les consignes pour la rédaction (utilisation de Markdown et de git) et le rendu sont détaillées dans le répertoire Template_FS.
-
Introduction à l’Open Data. Vidéos utilisées en cours:
-
Vidéos complémentaires
- Le Big Data pour mieux nous comprendre.
- Let’s pool our medical data.
- Why privacy matters?.
- Big Data will impact every part of your life.
- Big data and dangerous ideas.
- Big Data and the Rise of Augmented Intelligence.
- How Big Data Can Influence Decisions That Actually Matter.
- Is Big Data Killing Creativity?.
- Analyzing and modeling complex and big data.
- How to Monetize Big Data.
- How to predict the future with big data.
- Demand on a more open-source government.
- L’Open Data, Avenir des Big Data.
- Linked Open Data - What is it?.
Séance #2 (19.12.2023) - Linked Open Data et TP SparQL¶
-
Objectif du cours
- Question Wooclap
- Introduction aux données liées (Linked Data ou Linked Open Data).
-
Liens vers des vidéos vues en cours :
-
Travail sur le TP1 avec SparQL. La fin de l’énoncé fait l’objet d’un compte-rendu individuel.
Séance #3 (20.12.2023) - Framework Hadoop map-reduce¶
-
Objectif du cours
- Fin du travail sue le TP1 avec SparQL. Préparer la partie nécessaitant un CR.
- Apprentissage de git, avec l’outil GitHub Desktop et directement en ligne de commandes (avec un Terminal). Le scénario du tutoriel présenté en séance est disponible dans le dossier git.
-
Fiche de Synthèse
- Formez les groupes, déposez les noms et les adresses mail et les sujets de votre FS sur le fichier hébergé ici. Si cela ne fonctionne pas, le responsable de groupe m’envoie un mail avec les informations.
- Après avoir créé un compte sur la plateforme GitLab ou GitHub, créez un projet privé pour la FS (me désigner
reporter
de chaque FS, mon pseudo GitLab ou GitHub: stephane.derrode@ec-lyon.fr), selon les modalités exposées dans le dossier Template_FS. Cela me permettra de voir l’avancée de vos travaux (espionnage !).
Séance #4 (15.01.2024) - TP Hadoop map-reduce¶
-
Objectif du cours
- Présentation du framework Hadoop/map-reduce
- Présentation du TP #2 qui se déroulera durant la seconde phase (en janvier). En préparation à ce TP, installez Docker et le container Docker Linux/Hadoop selon les consignes données dans la PARTIE 2 du TP #2. Attention, le téléchargement est très volumineux et nécessite une machine avec au moins 3 GO libre de disque dur! Prenez-vous en avance pour faire cette installation! La fin de l’énoncé fait l’objet d’un compte-rendu individuel ou en binôme.
- Question Wooclap
Séance #5 (16.01.2024) - Framework Spark¶
-
Objectif du cours
- Présentation du framework Spark.
Séance #6 (17.01.2024) - TP Spark¶
-
Objectif du cours
- Commencez le TP #3, depuis la section
Tester les scripts vus en cours
. La fin de l’énoncé fait l’objet d’un compte-rendu individuel ou en binôme. - La partie 4 de ce TP (portant sur Spark streaming) est optionnelle.
- Commencez le TP #3, depuis la section