Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Struttura del corso
Introduzione:
- Apache Spark nell'ecosistema Hadoop
- Breve introduzione per python, scala
Nozioni di base (teoria):
- Architettura
- RDD (Organizzazione di Relazioni
- Trasformazione e azioni
- Fase, Attività, Dipendenze
Utilizzando Databricks l'ambiente comprendere le basi (workshop pratico):
- Esercizi con l'API RDD
- Funzioni di base di azione e trasformazione
- CoppiaRDD
- Unire
- Strategie di memorizzazione nella cache
- Esercizi con l'API DataFrame
- ScintillaSQL
- DataFrame: selezionare, filtrare, raggruppare, ordinare
- UDF (funzione definita dall'utente)
- Analisi dell'API DataSet
- Streaming
Utilizzando l'ambiente AWS, comprendere la distribuzione (workshop pratico):
- Nozioni di base su AWS Glue
- Comprendere le differenze tra AWS EMR eAWS Glue
- Esempi di processi in entrambi gli ambienti
- Comprendere i pro e i contro
Supplementare:
- Introduzione all'orchestrazioneApache Airflow
Requisiti
Abilità di programmazione (preferibilmente python, scala)
SQL Nozioni di base
21 ore
Recensioni (3)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
Corso - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
Corso - Apache Spark in the Cloud
Get to learn spark streaming , databricks and aws redshift