Struttura del corso
-
Breve introduzione a Scala
- Una rapida introduzione a Scala
- Laboratori: Familiarizzazione con Scala
-
Nozioni di Base su Spark
- Contesto storico e background
- Spark e Hadoop
- Concetti e architettura di Spark
- Ecosistema Spark (core, spark sql, mlib, streaming)
- Laboratori: Installazione ed esecuzione di Spark
-
Prima Occhiata a Spark
- Esecuzione di Spark in modalità locale
- Interfaccia web di Spark
- Shell di Spark
- Analisi del dataset – parte 1
- Ispezione degli RDDs
- Laboratori: Esplorazione della shell di Spark
-
RDDs
- Concetti sugli RDDs
- Partizioni
- Operazioni e trasformazioni su RDDs
- Tipi di RDDs
- RDDs a coppie chiave-valore
- MapReduce su RDDs
- Caching e persistenza
- Laboratori: Creazione ed ispezione di RDDs; Caching di RDDs
-
Programmazione con l'API di Spark
- Introduzione all'API di Spark / API RDDs
- Sottomissione del primo programma a Spark
- Debugging e logging
- Proprietà di configurazione
- Laboratori: Programmazione con l'API di Spark, Sottomissione di job
-
Spark SQL
- Suport per SQL in Spark
- Dataframes
- Definizione di tabelle e importazione di dataset
- Ricerche su dataframe tramite SQL
- Formati di archiviazione: JSON / Parquet
- Laboratori: Creazione e query di dataframes; Valutazione dei formati di dati
-
MLlib
- Introduzione a MLlib
- Algoritmi di MLlib
- Laboratori: Scrittura di applicazioni MLib
-
GraphX
- Panoramica della libreria GraphX
- API di GraphX
- Laboratori: Elaborazione dei dati grafo con Spark
-
Spark Streaming
- Panoramica del streaming
- Valutazione delle piattaforme di streaming
- Operazioni di streaming
- Operazioni su finestre scorrevoli
- Laboratori: Scrittura di applicazioni spark streaming
-
Spark e Hadoop
- Introduzione a Hadoop (HDFS / YARN)
- Architettura Hadoop + Spark
- Esecuzione di Spark su Hadoop YARN
- Elaborazione di file HDFS con Spark
-
Prestazioni e Ottimizzazione di Spark
- Variabili di broadcast
- Accumulatori
- Gestione della memoria e caching
-
Operazioni di Spark
- Distribuzione di Spark in produzione
- Esempi di modelli di distribuzione
- Configurazioni
- Monitoraggio
- Risoluzione dei problemi
Requisiti
PREREQUISITI
familiarità con Java / Scala / Python (i nostri laboratori in Scala e Python)
comprensione di base dell'ambiente di sviluppo Linux (navigazione da riga di comando / modifica di file usando VI o nano)
Recensioni (6)
Doing similar exercises different ways really help understanding what each component (Hadoop/Spark, standalone/cluster) can do on its own and together. It gave me ideas on how I should test my application on my local machine when I develop vs when it is deployed on a cluster.
Thomas Carcaud - IT Frankfurt GmbH
Corso - Spark for Developers
Ajay was very friendly, helpful and also knowledgable about the topic he was discussing.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Corso - Spark for Developers
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Corso - Spark for Developers
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Corso - Spark for Developers
We know a lot more about the whole environment.
John Kidd
Corso - Spark for Developers
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.