Struttura del corso
-
Breve introduzione a Scala
- Una rapida introduzione a Scala
- Laboratori: Familiarizzazione con Scala
-
Nozioni di Base su Spark
- Contesto storico e background
- Spark e Hadoop
- Concetti e architettura di Spark
- Ecosistema Spark (core, spark sql, mlib, streaming)
- Laboratori: Installazione ed esecuzione di Spark
-
Prima Occhiata a Spark
- Esecuzione di Spark in modalità locale
- Interfaccia web di Spark
- Shell di Spark
- Analisi del dataset – parte 1
- Ispezione degli RDDs
- Laboratori: Esplorazione della shell di Spark
-
RDDs
- Concetti sugli RDDs
- Partizioni
- Operazioni e trasformazioni su RDDs
- Tipi di RDDs
- RDDs a coppie chiave-valore
- MapReduce su RDDs
- Caching e persistenza
- Laboratori: Creazione ed ispezione di RDDs; Caching di RDDs
-
Programmazione con l'API di Spark
- Introduzione all'API di Spark / API RDDs
- Sottomissione del primo programma a Spark
- Debugging e logging
- Proprietà di configurazione
- Laboratori: Programmazione con l'API di Spark, Sottomissione di job
-
Spark SQL
- Suport per SQL in Spark
- Dataframes
- Definizione di tabelle e importazione di dataset
- Ricerche su dataframe tramite SQL
- Formati di archiviazione: JSON / Parquet
- Laboratori: Creazione e query di dataframes; Valutazione dei formati di dati
-
MLlib
- Introduzione a MLlib
- Algoritmi di MLlib
- Laboratori: Scrittura di applicazioni MLib
-
GraphX
- Panoramica della libreria GraphX
- API di GraphX
- Laboratori: Elaborazione dei dati grafo con Spark
-
Spark Streaming
- Panoramica del streaming
- Valutazione delle piattaforme di streaming
- Operazioni di streaming
- Operazioni su finestre scorrevoli
- Laboratori: Scrittura di applicazioni spark streaming
-
Spark e Hadoop
- Introduzione a Hadoop (HDFS / YARN)
- Architettura Hadoop + Spark
- Esecuzione di Spark su Hadoop YARN
- Elaborazione di file HDFS con Spark
-
Prestazioni e Ottimizzazione di Spark
- Variabili di broadcast
- Accumulatori
- Gestione della memoria e caching
-
Operazioni di Spark
- Distribuzione di Spark in produzione
- Esempi di modelli di distribuzione
- Configurazioni
- Monitoraggio
- Risoluzione dei problemi
Requisiti
PREREQUISITI
familiarità con Java / Scala / Python (i nostri laboratori in Scala e Python)
comprensione di base dell'ambiente di sviluppo Linux (navigazione da riga di comando / modifica di file usando VI o nano)
Recensioni (6)
Eseguire esercizi simili in modi diversi aiuta davvero a comprendere ciò che ogni componente (Hadoop/Spark, standalone/cluster) può fare da solo e insieme. Mi ha dato idee su come dovrei testare la mia applicazione sulla macchina locale durante lo sviluppo rispetto al suo deployment in un cluster.
Thomas Carcaud - IT Frankfurt GmbH
Corso - Spark for Developers
Traduzione automatica
Ajay era molto amichevole, disponibile e anche competente sul tema di cui stava parlando.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Corso - Spark for Developers
Traduzione automatica
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Corso - Spark for Developers
Traduzione automatica
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Corso - Spark for Developers
Traduzione automatica
We know a lot more about the whole environment.
John Kidd
Corso - Spark for Developers
Traduzione automatica
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Corso - Spark for Developers
Traduzione automatica