Struttura del corso

Introduzione

  • Apache Beam contro MapReduce, Spark Streaming, Kafka Streaming, Storm e Flink

Installazione e configurazione Apache Beam

Panoramica delle funzionalità e dell'architettura di Apache Beam

  • Modello di trave, SDK, canali di derivazione
  • Back-end di elaborazione distribuiti

Comprendere il modello Apache Beam Programming

  • Modalità di esecuzione di una pipeline

Esecuzione di una pipeline di esempio

  • Preparazione di una pipeline WordCount
  • Esecuzione della pipeline in locale

Progettazione di una pipeline

  • Pianificazione della struttura, scelta delle trasformazioni e determinazione dei metodi di input e output

Creazione della pipeline

  • Scrittura del programma driver e definizione della pipeline
  • Utilizzo delle classi Apache Beam
  • Set di dati, trasformazioni, I/O, codifica dei dati, ecc.

Esecuzione della pipeline

  • Esecuzione della pipeline in locale, su computer remoti e su un cloud pubblico
  • Scegliere un corridore
  • Configurazioni specifiche per i corridori

Test e debug Apache Beam

  • Utilizzo dei suggerimenti per il tipo per emulare la tipizzazione statica
  • Gestione delle dipendenze della pipeline Python

Elaborazione di set di dati delimitati e non delimitati

  • Windowing e trigger

Rendere le tubazioni riutilizzabili e manutenibili

Creare nuove origini dati e sink

  • Apache Beam API di origine e sink

Integrazione di Apache Beam con altri Big Data sistemi

  • Apache Hadoop, Apache Spark, Apache Kafka

Risoluzione dei problemi

Riassunto e conclusione

Requisiti

  • Esperienza con Python Programming.
  • Esperienza con la riga di comando Linux.

Pubblico

  • Gli sviluppatori
 14 ore

Numero di Partecipanti


Prezzo per Partecipante

Corsi in Arrivo

Categorie relative