Struttura del corso
Introduzione:
- Apache Spark nell'ecosistema Hadoop
- Breve introduzione per python, scala
Nozioni di base (teoria):
- Architettura
- RDD (Organizzazione di Relazioni
- Trasformazione e azioni
- Fase, Attività, Dipendenze
Utilizzando Databricks l'ambiente comprendere le basi (workshop pratico):
- Esercizi con l'API RDD
- Funzioni di base di azione e trasformazione
- CoppiaRDD
- Unire
- Strategie di memorizzazione nella cache
- Esercizi con l'API DataFrame
- ScintillaSQL
- DataFrame: selezionare, filtrare, raggruppare, ordinare
- UDF (funzione definita dall'utente)
- Analisi dell'API DataSet
- Streaming
Utilizzando l'ambiente AWS, comprendere la distribuzione (workshop pratico):
- Nozioni di base su AWS Glue
- Comprendere le differenze tra AWS EMR eAWS Glue
- Esempi di processi in entrambi gli ambienti
- Comprendere i pro e i contro
Supplementare:
- Introduzione all'orchestrazioneApache Airflow
Requisiti
Abilità di programmazione (preferibilmente python, scala)
SQL Nozioni di base
Recensioni (3)
Avere sessioni pratiche/compiti
Poornima Chenthamarakshan - Intelligent Medical Objects
Corso - Apache Spark in the Cloud
Traduzione automatica
1. Bilanciamento equilibrato tra concetti di alto livello e dettagli tecnici. 2. Andras è molto competente nella sua insegnanza. 3. Esercizio
Steven Wu - Intelligent Medical Objects
Corso - Apache Spark in the Cloud
Traduzione automatica
Iscriviti per imparare Spark Streaming, Databricks e AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Corso - Apache Spark in the Cloud
Traduzione automatica