Grazie per aver inviato la vostra richiesta! Un membro del nostro team vi contatterà a breve.
Grazie per aver inviato la vostra prenotazione! Un membro del nostro team vi contatterà a breve.
Struttura del corso
Introduzione:
- Apache Spark nell'ecosistema Hadoop
- Breve introduzione per python, scala
Nozioni di base (teoria):
- Architettura
- RDD (Organizzazione di Relazioni
- Trasformazione e azioni
- Fase, Attività, Dipendenze
Utilizzando Databricks l'ambiente comprendere le basi (workshop pratico):
- Esercizi con l'API RDD
- Funzioni di base di azione e trasformazione
- CoppiaRDD
- Unire
- Strategie di memorizzazione nella cache
- Esercizi con l'API DataFrame
- ScintillaSQL
- DataFrame: selezionare, filtrare, raggruppare, ordinare
- UDF (funzione definita dall'utente)
- Analisi dell'API DataSet
- Streaming
Utilizzando l'ambiente AWS, comprendere la distribuzione (workshop pratico):
- Nozioni di base su AWS Glue
- Comprendere le differenze tra AWS EMR eAWS Glue
- Esempi di processi in entrambi gli ambienti
- Comprendere i pro e i contro
Supplementare:
- Introduzione all'orchestrazioneApache Airflow
Requisiti
Abilità di programmazione (preferibilmente python, scala)
SQL Nozioni di base
21 ore
Recensioni (3)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
Corso - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
Corso - Apache Spark in the Cloud
Get to learn spark streaming , databricks and aws redshift