Struttura del corso
Introduzione ad Apache Airflow
- Cosa è l'orchestrazione dei flussi di lavoro
- Caratteristiche e vantaggi principali di Apache Airflow
- Miglioramenti in Airflow 2.x e panoramica dell'ecosistema
Architettura e Concetti Fondamentali
- Processi del scheduler, web server e worker
- DAGs, task e operatori
- Executor e backends (Local, Celery, Kubernetes)
Installazione e Configurazione
- Installare Airflow in ambienti locali e cloud
- Configurare Airflow con diversi executor
- Impostare database di metadati e connessioni
Navigazione nell'UI e CLI di Airflow
- Esplorare l'interfaccia web di Airflow
- Monitorare esecuzioni di DAG, task e log
- Utilizzare la CLI di Airflow per l'amministrazione
Creazione e Gestione dei DAGs
- Creare DAGs con l'API TaskFlow
- Utilizzare operatori, sensori e hook
- Gestire dipendenze e intervalli di scheduling
Integrazione di Airflow con Dati e Servizi Cloud
- Connettersi a database, API e code di messaggi
- Eseguire pipeline ETL con Airflow
- Integrazioni cloud: operatori AWS, GCP, Azure
Monitoraggio e Osservabilità
- Log dei task e monitoraggio in tempo reale
- Metriche con Prometheus e Grafana
- Avvisi e notifiche tramite email o Slack
Sicurezza di Apache Airflow
- Controllo degli accessi basato sui ruoli (RBAC)
- Autenticazione con LDAP, OAuth e SSO
- Gestione delle segrete con Vault e archivi di segrete cloud
Scalabilità di Apache Airflow
- Parallelismo, concorrenza e code dei task
- Utilizzare CeleryExecutor e KubernetesExecutor
- Distribuire Airflow su Kubernetes con Helm
Best Practice per la Produzione
- Controllo delle versioni e CI/CD per i DAGs
- Testare e debuggare i DAGs
- Mantenere affidabilità e prestazioni a scala
Risoluzione dei Problemi e Ottimizzazione
- Debug dei DAGs falliti e task
- Ottimizzare le prestazioni dei DAGs
- Pitfall comuni e come evitarli
Riepilogo e Passi Successivi
Requisiti
- Esperienza con la programmazione Python
- Familiarità con i concetti di data engineering o DevOps
- Comprensione dei processi ETL o della gestione delle pipeline
Pubblico di riferimento
- Data scientists
- Data engineers
- Ingegneri DevOps e infrastrutture
- Sviluppatori software
Recensioni (7)
The training was spot on. Very useful theory and exercices.
Vladimir - PUBLIC COURSE
Corso - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Corso - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Corso - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Corso - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Corso - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Corso - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.