Struttura del corso

 

Introduzione:

  • Apache Spark nell'ecosistema Hadoop
  • Breve introduzione per python, scala

Nozioni di base (teoria):

  • Architettura
  • RDD (Organizzazione di Relazioni
  • Trasformazione e azioni
  • Fase, Attività, Dipendenze

Utilizzando Databricks l'ambiente comprendere le basi (workshop pratico):

  • Esercizi con l'API RDD
  • Funzioni di base di azione e trasformazione
  • CoppiaRDD
  • Unire
  • Strategie di memorizzazione nella cache
  • Esercizi con l'API DataFrame
  • ScintillaSQL
  • DataFrame: selezionare, filtrare, raggruppare, ordinare
  • UDF (funzione definita dall'utente)
  • Analisi dell'API DataSet
  • Streaming

Utilizzando l'ambiente AWS, comprendere la distribuzione (workshop pratico):

  • Nozioni di base su AWS Glue
  • Comprendere le differenze tra AWS EMR eAWS Glue
  • Esempi di processi in entrambi gli ambienti
  • Comprendere i pro e i contro

Supplementare:

  • Introduzione all'orchestrazioneApache Airflow

Requisiti

Abilità di programmazione (preferibilmente python, scala)

SQL Nozioni di base

  21 ore
 

Numero di Partecipanti


Data Inizio

Data Fine


Le date sono soggette a disponibilità e si svolgono tra le 09:30 e le 16:30.
I corsi di formazione pubblici richiedono più di 5 partecipanti.

Recensioni (3)

Corsi relativi

Categorie relative