Struttura del corso

Introduzione

Scala Revisione approfondita della programmazione

  • Sintassi e struttura
  • Controllo del flusso e funzioni

Spark Internals

  • Set di dati distribuiti resilienti (RDD)
  • Script Spark per creare un grafico nel cluster

Panoramica di Spark Streaming

  • Architettura di streaming
  • Intervalli in streaming
  • Tolleranza ai guasti

Preparazione dell'ambiente di sviluppo

  • Installazione e configurazione di Apache Spark
  • Installazione e configurazione dell'IDE Scala
  • Installazione e configurazione di JDK

Spark Streaming Da principiante ad avanzato

  • Utilizzo di RDD chiave/valore
  • Filtraggio degli RDD
  • Miglioramento degli script Spark con le espressioni regolari
  • Condivisione di dati in un cluster
  • Utilizzo dei set di dati di rete
  • Implementazione di algoritmi BFS
  • Creazione di script del driver Spark
  • Tracciamento in tempo reale con script
  • Scrittura di applicazioni continue
  • Regressione lineare in streaming
  • Utilizzo della libreria Spark Machine Learning

Spark e cluster

  • Raggruppamento di dipendenze e script Spark con lo strumento SBT
  • Utilizzo di EMR per illustrare i cluster
  • Ottimizzazione tramite partizionamento RDD
  • Uso dei log di SparkUsing Spark logs

Integrazione in Spark Streaming

  • Integrazione di Apache Kafka e utilizzo degli argomenti di Kafka
  • Integrazione di Apache Fume e utilizzo di configurazioni Flume basate su pull/push
  • Scrittura di una classe ricevente personalizzata
  • Integrazione Cassandra ed esposizione dei dati come servizi in tempo reale

In Produzione

  • Creare un pacchetto di un'applicazione ed eseguirla con Spark-Submit
  • Risoluzione dei problemi, ottimizzazione e debug di processi e cluster Spark

Riassunto e conclusione

Requisiti

  • Programming ed esperienza di scripting

Pubblico

  • Ingegneri del software
 21 ore

Numero di Partecipanti



Prezzo per Partecipante

Recensioni (5)

Corsi relativi

Categorie relative