Struttura del corso

Fondamenti di NiFi e del Flusso di Dati

  • Dati in movimento vs dati a riposo: concetti e sfide
  • Architettura di NiFi: nuclei, controller di flusso, provenienza e bulletin
  • Componenti chiave: processori, connessioni, controller e provenienza

Contesto e Integrazione dei Big Data

  • Ruolo di NiFi negli ecosistemi dei Big Data (Hadoop, Kafka, cloud storage)
  • Panoramica di HDFS, MapReduce e alternative moderne
  • Casi d'uso: ingestione a flusso continuo, invio di log, pipeline di eventi

Installazione, Configurazione e Impostazione del Cluster

  • Installazione di NiFi in modalità singolo nodo e cluster
  • Configurazione del cluster: ruoli dei nodi, Zookeeper e bilanciamento del carico
  • Orchestrazione delle distribuzioni di NiFi: utilizzo di Ansible, Docker o Helm

Progettazione e Gestione dei Flussi di Dati

  • Routing, filtraggio, suddivisione e unione dei flussi
  • Configurazione del processore (InvokeHTTP, QueryRecord, PutDatabaseRecord, ecc.)
  • Gestione dello schema, arricchimento e operazioni di trasformazione
  • Gestione degli errori, relazioni di retry e backpressure

Scenari di Integrazione

  • Connessione a database, sistemi di messaggistica, API REST
  • Streaming verso sistemi di analisi: Kafka, Elasticsearch o cloud storage
  • Integrazione con Splunk, Prometheus o pipeline di logging

Monitoraggio, Recupero e Provenienza

  • Utilizzo dell'UI di NiFi, metriche e visualizzatore di provenienza
  • Progettazione del recupero autonomo e della gestione delle interruzioni con grazia
  • Copia di sicurezza, versionamento dei flussi e gestione dei cambiamenti

Ottimizzazione delle Prestazioni

  • Regolazione del JVM, dell'heap, delle thread pools e dei parametri di clustering
  • Ottimizzazione della progettazione del flusso per ridurre i bottleneck
  • Isole di risorse, prioritizzazione dei flussi e controllo del throughput

Best Practices e Governance

  • Documentazione del flusso, standard di denominazione, progettazione modulare
  • Sicurezza: TLS, autenticazione, controllo degli accessi, crittografia dei dati
  • Gestione dei cambiamenti, versionamento, accesso basato sui ruoli, tracce di audit

Risoluzione dei Problemi e Risposta agli Incidenti

  • Problemi comuni: deadlock, perdite di memoria, errori del processore
  • Analisi dei log, diagnosi degli errori e indagine delle cause radici
  • Strategie di recupero e rollback del flusso

Laboratorio Pratico: Implementazione Realistica di una Pipeline di Dati

  • Creazione di un flusso end-to-end: ingestione, trasformazione, consegna
  • Implementazione della gestione degli errori, del backpressure e dello scaling
  • Test delle prestazioni e ottimizzazione della pipeline

Riepilogo e Prossimi Passi

Requisiti

  • Esperienza con la riga di comando Linux
  • Comprensione basilare delle reti e dei sistemi di dati
  • Conoscenza delle concettualità di streaming dei dati o ETL

Pubblico di riferimento

  • Amministratori di sistema
  • Ingegneri dei dati
  • Sviluppatori
  • Professionisti DevOps
 21 Ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (7)

Corsi in Arrivo

Categorie relative