Struttura del corso

  1. Breve introduzione a Scala

    • Una rapida introduzione a Scala
    • Laboratori: Familiarizzazione con Scala
  2. Nozioni di Base su Spark

    • Contesto storico e background
    • Spark e Hadoop
    • Concetti e architettura di Spark
    • Ecosistema Spark (core, spark sql, mlib, streaming)
    • Laboratori: Installazione ed esecuzione di Spark
  3. Prima Occhiata a Spark

    • Esecuzione di Spark in modalità locale
    • Interfaccia web di Spark
    • Shell di Spark
    • Analisi del dataset – parte 1
    • Ispezione degli RDDs
    • Laboratori: Esplorazione della shell di Spark
  4. RDDs

    • Concetti sugli RDDs
    • Partizioni
    • Operazioni e trasformazioni su RDDs
    • Tipi di RDDs
    • RDDs a coppie chiave-valore
    • MapReduce su RDDs
    • Caching e persistenza
    • Laboratori: Creazione ed ispezione di RDDs; Caching di RDDs
  5. Programmazione con l'API di Spark

    • Introduzione all'API di Spark / API RDDs
    • Sottomissione del primo programma a Spark
    • Debugging e logging
    • Proprietà di configurazione
    • Laboratori: Programmazione con l'API di Spark, Sottomissione di job
  6. Spark SQL

    • Suport per SQL in Spark
    • Dataframes
    • Definizione di tabelle e importazione di dataset
    • Ricerche su dataframe tramite SQL
    • Formati di archiviazione: JSON / Parquet
    • Laboratori: Creazione e query di dataframes; Valutazione dei formati di dati
  7. MLlib

    • Introduzione a MLlib
    • Algoritmi di MLlib
    • Laboratori: Scrittura di applicazioni MLib
  8. GraphX

    • Panoramica della libreria GraphX
    • API di GraphX
    • Laboratori: Elaborazione dei dati grafo con Spark
  9. Spark Streaming

    • Panoramica del streaming
    • Valutazione delle piattaforme di streaming
    • Operazioni di streaming
    • Operazioni su finestre scorrevoli
    • Laboratori: Scrittura di applicazioni spark streaming
  10. Spark e Hadoop

    • Introduzione a Hadoop (HDFS / YARN)
    • Architettura Hadoop + Spark
    • Esecuzione di Spark su Hadoop YARN
    • Elaborazione di file HDFS con Spark
  11. Prestazioni e Ottimizzazione di Spark

    • Variabili di broadcast
    • Accumulatori
    • Gestione della memoria e caching
  12. Operazioni di Spark

    • Distribuzione di Spark in produzione
    • Esempi di modelli di distribuzione
    • Configurazioni
    • Monitoraggio
    • Risoluzione dei problemi

Requisiti

PREREQUISITI

familiarità con Java / Scala / Python (i nostri laboratori in Scala e Python)
comprensione di base dell'ambiente di sviluppo Linux (navigazione da riga di comando / modifica di file usando VI o nano)

 21 Ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (6)

Corsi in Arrivo

Categorie relative