Struttura del corso

Introduzione

  • Raggio di Apache contro MapReduce, Spark Streaming, Streaming di Kafka, Tempesta e Lampo

Installazione e configurazione Apache Beam

Panoramica di Apache Beam Funzionalità e architettura

  • Modello di trave, SDK, canali di tubazione di travi
  • Back-end di elaborazione distribuita

Comprendere il modello Apache Beam Programming

  • Modalità di esecuzione di una pipeline

Esecuzione di una pipeline di esempio

  • Preparazione di una pipeline WordCount
  • Esecuzione della pipeline in locale

Progettazione di una pipeline

  • Pianificazione della struttura, scelta delle trasformazioni e determinazione dei metodi di input e output

Creazione della pipeline

  • Scrittura del programma driver e definizione della pipeline
  • Utilizzo delle classi Apache Beam
  • Set di dati, trasformazioni, I/O, codifica dei dati, ecc.

Esecuzione della pipeline

  • Esecuzione della pipeline in locale, su computer remoti e su un cloud pubblico
  • Scegliere un corridore
  • Configurazioni specifiche per i corridori

Test e debug Apache Beam

  • Utilizzo di hint di tipo per emulare la tipizzazione statica
  • Gestione Python delle dipendenze della pipeline

Elaborazione di set di dati delimitati e non associati

  • Finestre e trigger

Rendere le pipeline riutilizzabili e manutenibili

Creare nuove origini dati e sink

  • Apache Beam API di origine e sink

Integrazione di Apache Beam con altri sistemi Big Data

  • Apache Hadoop, Scintilla Apache, Apache Kafka

Risoluzione dei problemi

Riassunto e conclusione

Requisiti

  • Esperienza con Python Programmazione.
  • Esperienza con la riga di comando di Linux.

Pubblico

  • Gli sviluppatori
  14 ore
 

Numero di Partecipanti


Data Inizio

Data Fine


Le date sono soggette a disponibilità e si svolgono tra le 09:30 e le 16:30.
I corsi di formazione pubblici richiedono più di 5 partecipanti.

Recensioni (1)

Corsi relativi

Stream Processing with Kafka Streams

  7 ore

Categorie relative