TP Big Data, ECC

Cet espace recueille les fichiers de cours et TP du module Technologies Informatique du Big Data, enseigné à l’École Centrale de Casablanca. Tous les rendus de TP se feront sur le site edunao.

Stéphane Derrode, École Centrale de Lyon, Dpt MI, LIRIS (CNRS UMR 5205).

Informations générales

Déroulé des séances

Séance #1 (18.12.2023) - Introduction au Big Data et à l’Open Data

Séance #2 (19.12.2023) - Linked Open Data et TP SparQL

Séance #3 (20.12.2023) - Framework Hadoop map-reduce

  • Objectif du cours

    • Fin du travail sue le TP1 avec SparQL. Préparer la partie nécessaitant un CR.
    • Apprentissage de git, avec l’outil GitHub Desktop et directement en ligne de commandes (avec un Terminal). Le scénario du tutoriel présenté en séance est disponible dans le dossier git.
    • Fiche de Synthèse

      • Formez les groupes, déposez les noms et les adresses mail et les sujets de votre FS sur le fichier hébergé ici. Si cela ne fonctionne pas, le responsable de groupe m’envoie un mail avec les informations.
      • Après avoir créé un compte sur la plateforme GitLab ou GitHub, créez un projet privé pour la FS (me désigner reporter de chaque FS, mon pseudo GitLab ou GitHub: stephane.derrode@ec-lyon.fr), selon les modalités exposées dans le dossier Template_FS. Cela me permettra de voir l’avancée de vos travaux (espionnage !).

Séance #4 (15.01.2024) - TP Hadoop map-reduce

  • Objectif du cours

    • Présentation du framework Hadoop/map-reduce
    • Présentation du TP #2 qui se déroulera durant la seconde phase (en janvier). En préparation à ce TP, installez Docker et le container Docker Linux/Hadoop selon les consignes données dans la PARTIE 2 du TP #2. Attention, le téléchargement est très volumineux et nécessite une machine avec au moins 3 GO libre de disque dur! Prenez-vous en avance pour faire cette installation! La fin de l’énoncé fait l’objet d’un compte-rendu individuel ou en binôme.
    • Question Wooclap

Séance #5 (16.01.2024) - Framework Spark

  • Objectif du cours

    • Présentation du framework Spark.

Séance #6 (17.01.2024) - TP Spark

  • Objectif du cours

    • Commencez le TP #3, depuis la section Tester les scripts vus en cours. La fin de l’énoncé fait l’objet d’un compte-rendu individuel ou en binôme.
    • La partie 4 de ce TP (portant sur Spark streaming) est optionnelle.