Formation Spark, Mise en oeuvre et programmation

Présentation

UXSP
3 jours ( 21 heures )
Présentation
Mettre en oeuvre Spark.
Objectifs du cours
Cette formation vous permettra de savoir mettre en oeuvre Spark pour optimiser des calculs.
Pré-requis
Connaissance de Java ou Python, des bases Hadoop, et notions de calculs statistiques

Programme

 

Introduction

Présentation Spark, origine du projet,
apports, principe de fonctionnement
Langages supportés.
 
Premiers pas

Utilisation du shell Spark avec Scala ou Python
Gestion du cache
 
Règles de développement

Mise en pratique en Java et Python
Notion de contexte Spark
Différentes méthodes de création des RDD: 
depuis un fichier texte, un stockage externe.
Manipulations sur les RDD (Resilient Distributed Dataset)
Fonctions, gestion de la persistence.
 
Cluster

Différents cluster managers : Spark en autonome, Mesos, Yarn, Amazon EC2
Architecture : SparkContext,Cluster Manager, Executor sur chaque noeud.
Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
Mise en oeuvre avec Spark et Amazon EC2
Soumission de jobs, supervision depuis l'interface web
 
Intégration hadoop

Travaux pratiques avec YARN
Création et exploitation d'un cluster Spark/YARN.


 
Support Cassandra

Description rapide de l'architecture Cassandra. Mise en oeuvre depuis Spark.
Exécution de travaux Spark s'appuyant sur une grappe Cassandra.


 
Spark SQL

Objectifs : traitement de données structurées,.
Optimisation des requêtes.
Mise en oeuvre de Spark SQL.
Comptabilité Hive
Travaux pratiques:
en ligne de commande avec Spark SQL,
avec un pilote JDBC.
L'API Dataset : 
disponible avec Scala ou Java.
Collections de données distribuées.
Exemples en Java.
 
Streaming

Objectifs , principe de fonctionnement : stream processing.
Source de données : HDFS, Flume, Kafka, ...
Notion de StreamingContexte, DStreams, démonstrations
Travaux pratiques : traitement de flux DStreams en Java.
 
MLib

Fonctionnalités : Machine Learning avec Sparck,
algorithmes standards,
gestion de la persistence,
statistiques.
Support de RDD.
Mise en oeuvre avec les DataFrames.
 
GraphX

Fourniture d'algorithmes, d'opérateurs simples
pour des calcul statistiques sur les graphes
Travaux pratiques :
exemples d'opérations sur les graphes.

 

Partager cette formation

 

Contactez-nous

contactez logware

Vous êtes intéressé par cette formation ou souhaitez simplement obtenir des informations complémentaires ?

+33 1 53 94 71 20

Écrivez-nous on vous rappelle

  1. Nom*
    Merci de saisir un nom valide
  2. Prénom*
    Merci de saisir un prénom valide
  3. E-mail*
    Merci de saisir une adresse email valide
  4. Téléphone*
    Numéro de téléphone invalide
  5. Entreprise
    Donnée invalide

Parce que nous comprenons la nécessité d'obtenir un enseignement qui permettra à votre équipe d'atteindre vos objectifs, nous restons flexibles et sommes capables d'adapter nos programmes de formation à vos besoins.

> En savoir plus