Struttura del corso

Introduzione ad Apache Airflow

  • Cosa è l'orchestrazione dei flussi di lavoro
  • Caratteristiche e vantaggi principali di Apache Airflow
  • Miglioramenti in Airflow 2.x e panoramica dell'ecosistema

Architettura e Concetti Fondamentali

  • Processi del scheduler, web server e worker
  • DAGs, task e operatori
  • Executor e backends (Local, Celery, Kubernetes)

Installazione e Configurazione

  • Installare Airflow in ambienti locali e cloud
  • Configurare Airflow con diversi executor
  • Impostare database di metadati e connessioni

Navigazione nell'UI e CLI di Airflow

  • Esplorare l'interfaccia web di Airflow
  • Monitorare esecuzioni di DAG, task e log
  • Utilizzare la CLI di Airflow per l'amministrazione

Creazione e Gestione dei DAGs

  • Creare DAGs con l'API TaskFlow
  • Utilizzare operatori, sensori e hook
  • Gestire dipendenze e intervalli di scheduling

Integrazione di Airflow con Dati e Servizi Cloud

  • Connettersi a database, API e code di messaggi
  • Eseguire pipeline ETL con Airflow
  • Integrazioni cloud: operatori AWS, GCP, Azure

Monitoraggio e Osservabilità

  • Log dei task e monitoraggio in tempo reale
  • Metriche con Prometheus e Grafana
  • Avvisi e notifiche tramite email o Slack

Sicurezza di Apache Airflow

  • Controllo degli accessi basato sui ruoli (RBAC)
  • Autenticazione con LDAP, OAuth e SSO
  • Gestione delle segrete con Vault e archivi di segrete cloud

Scalabilità di Apache Airflow

  • Parallelismo, concorrenza e code dei task
  • Utilizzare CeleryExecutor e KubernetesExecutor
  • Distribuire Airflow su Kubernetes con Helm

Best Practice per la Produzione

  • Controllo delle versioni e CI/CD per i DAGs
  • Testare e debuggare i DAGs
  • Mantenere affidabilità e prestazioni a scala

Risoluzione dei Problemi e Ottimizzazione

  • Debug dei DAGs falliti e task
  • Ottimizzare le prestazioni dei DAGs
  • Pitfall comuni e come evitarli

Riepilogo e Passi Successivi

Requisiti

  • Esperienza con la programmazione Python
  • Familiarità con i concetti di data engineering o DevOps
  • Comprensione dei processi ETL o della gestione delle pipeline

Pubblico di riferimento

  • Data scientists
  • Data engineers
  • Ingegneri DevOps e infrastrutture
  • Sviluppatori software
 21 Ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (7)

Corsi in Arrivo

Categorie relative