Apache Spark - Développer des applications - Groupe 81074

Grand public

Cours INT-AFF

Plateforme Windows

Durée 28 heures

Lieu

2030, boul. Pie-IX

Local

Numéro de groupe

81074

Frais avant taxes

(frais de matériel didactique inclus)

425,00 $ CAD

Date(s)

6, 7, 20, 21 avril 2019

Jour(s)

Samedi, dimanche

Horaire

8 h 30 à 16 h 30

Clientèle

Grand public
Personnes en emploi / Personnes sans emploi

Préalables

• Avoir suivi ou maîtriser les notions du cours « Hadoop - traitement des données massives »
• Posséder des connaissances en Python
• Posséder des connaissances en SQL

Objectifs

À la fin du cours, le participant 

  • Comprendra le fonctionnement de Spark
  • Développera des applications avec Apache Spark
  • Utilisera Spark SQL et les dataframes
  • Fera de l’analyse en temps réel avec Spark streaming

Approche pédagogique

Ce cours comporte des cours magistraux, des démonstrations et des exercices dirigés pour acquérir les connaissances et les compétences en matière de technologies disponibles, d’architectures et d’environnement.

Attestation délivrée en fin de cours

Une attestation de participation est remise aux personnes ayant assisté à plus de 80 % des heures de formation

Matériel pédagogique

  • Les présentations en format électronique
  • Les différents exercices et laboratoiress en format électronique

Contenu du cours

INTRODUCTION À APACHE SPARK

  • Définition et provenance de Spark
  • Raison de l’utilisation de Spark  
  • Spark vs MapReduce

PROGRAMMER AVEC APACHE SPARK

  • Composants de Spark
  • Premiers pas avec Spark
  • RDD
  • Transformations et actions
  • Spark Hello World (wordcount)
  • Mise en pratique de « Assurer ses premiers pas avec Apache Spark »

PROGRAMMATION RDD AVANCÉE

  • Fonctions de RDD « cœur »
  • Fonctions de RDD paires
  • Utilisation de la documentation de Spark
  • Mise en pratique de « Utiliser le stockage HDFS »

PROGRAMMATION PARALLÈLE AVEC SPARK

  • Partitionnement, jobs, stage et tasks
  • UI de Spark
  • Changement du niveau de parallélisation
  • Mise en pratique de « Programmation parallèle sur Spark »

SPARK SQL

  • Concepts de Spark SQL
  • Création d’une Dataframe
  • Sauvegarde d’une Dataframe
  • Mise en pratique de « Spark SQL avec Hive »

SPARK STREAMING

  • Architecture de Spark Streaming
  • Vue d’ensemble de Spark Streaming
  • Fiabilité des récepteurs et des sources
  • Transformations et opérations de sorties
  • Mise en pratique de « Wordcount en Spark Streaming »
College de Maisonneuve | Formation continue