Struttura del corso
Settimana 1 — Introduzione al Data Engineering
- Fondamenti del data engineering e stack di dati moderni
- Pattern di ingestione dei dati e sorgenti
- Concetti di batch vs streaming e casi d'uso
- Laboratorio pratico: ingestione di dati di esempio in cloud storage
Settimana 2 — Distinctive Badge del Databricks Lakehouse Foundation
- Fondamenti della piattaforma Databricks e navigazione dello spazio di lavoro
- Concetti Delta Lake: ACID, time travel e evoluzione dello schema
- Sicurezza dello spazio di lavoro, controlli di accesso e basi del Unity Catalog
- Laboratorio pratico: creazione e gestione delle tabelle Delta
Settimana 3 — Advanced SQL su Databricks
- Costrutti avanzati di SQL e funzioni window a larga scala
- Ottimizzazione delle query, piani di esecuzione e pattern coscienti del costo
- Viste materializzate, caching e ottimizzazione delle prestazioni
- Laboratorio pratico: ottimizzazione di query analitiche su grandi set di dati
Settimana 4 — Preparazione per la Certificazione Databricks Certified Developer for Apache Spark
- Architettura Spark, RDDs, DataFrames e Datasets in dettaglio
- Trasformazioni e azioni chiave di Spark; considerazioni sulle prestazioni
- Nozioni di base sulla streaming di Spark e pattern di structured streaming
- Esercizi di esame di prova e problemi test pratici
Settimana 5 — Introduzione al Data Modeling
- Concetti: modeling dimensionale, design star/schema e normalizzazione
- Modeling Lakehouse vs approcci tradizionali di data warehouse
- Pattern di progettazione per set di dati pronti per l'analisi
- Laboratorio pratico: costruzione di tabelle e viste pronte per la consumo
Settimana 6 — Introduzione agli Strumenti di Importazione e Automazione dell'Ingestione dei Dati
- Connettori e strumenti di ingestione per Databricks (AWS Glue, Data Factory, Kafka)
- Pattern di ingestione a stream e design a micro-batch
- Validazione dei dati, controlli di qualità e enforcement dello schema
- Laboratorio pratico: costruzione di pipeline di ingestione resilienti
Settimana 7 — Introduzione al Git Flow e CI/CD per il Data Engineering
- Strategie di branching Git Flow e organizzazione del repository
- Pipeline CI/CD per notebook, processi e infrastruttura come codice
- Testing, linting e automazione della distribuzione per il codice dei dati
- Laboratorio pratico: implementare un workflow basato su Git e distribuzione automatica di processi
Settimana 8 — Preparazione alla Certificazione Databricks Certified Data Engineer Associate & Pattern del Data Engineering
- Ripasso dei topic della certificazione e esercizi pratici
- Pattern architetturali: bronze/silver/gold, CDC, dimensioni che cambiano lentamente
- Pattern operazionali: monitoraggio, allerting e lineage
- Laboratorio pratico: pipeline end-to-end applicando pattern di ingegneria
Settimana 9 — Introduzione ad Airflow e Astronomer; Scripting
- Nozioni fondamentali di Airflow: DAGs, tasks, operatori e scheduling
- Panoramica della piattaforma Astronomer e best practices per l'orchestrazione
- Scripting per l'automazione: pattern di scripting Python per task di dati
- Laboratorio pratico: orchestrare processi Databricks con DAGs di Airflow
Settimana 10 — Data Visualization, Tableau e Progetto Finale Personalizzato
- Connessione di Tableau a Databricks e best practices per i livelli BI
- Principi di design delle dashboard e visualizzazioni consapevoli delle prestazioni
- Capstone: progetto finale personalizzato, definizione, implementazione e presentazione
- Presentation finali, revisione tra pari e feedback dell'insegnante
Riepilogo e Passi Successivi
Requisiti
- Comprensione dei concetti di base di SQL e dati
- Esperienza di programmazione in Python o Scala
- Familiarità con i servizi cloud e gli ambienti virtuali
Pubblico di riferimento
- Data engineer aspiranti e praticanti
- Sviluppatori ETL/BI e ingegneri di analisi
- Team di piattaforme dati e DevOps che supportano i pipeline