Corso di formazione Trasmissione dei Dati in Streaming ed Elaborazione dei Dati in Tempo Reale
Descrizione del Corso
Questo corso offre un'introduzione pratica e strutturata alla costruzione di sistemi di trasmissione dei dati in streaming in tempo reale. Vengono trattati i concetti fondamentali, i pattern architetturali e gli strumenti industriali utilizzati per elaborare dati continui su larga scala. I partecipanti impareranno a progettare, implementare e ottimizzare pipeline di streaming utilizzando framework moderni. Il corso procede dai concetti base fino ad applicazioni pratiche, consentendo agli studenti di costruire con sicurezza soluzioni in tempo reale pronte per la produzione.
Formato della Formazione
• Sessioni guidate da un istruttore con spiegazioni dettagliate
• Analisi concettuale accompagnata da esempi del mondo reale
• Dimostrazioni pratiche ed esercizi di codifica
• Laboratori progressivi allineati agli argomenti quotidiani
• Discussioni interattive e sessioni di domande e risposte
Obiettivi del Corso
• Comprendere i concetti della trasmissione dei dati in tempo reale e l'architettura dei sistemi
• Distinguere tra i modelli di elaborazione dei dati batch e in streaming
• Progettare pipeline di streaming scalabili e tolleranti ai guasti
• Utilizzare strumenti e framework di streaming distribuito
• Applicare l'elaborazione del tempo evento, l'avvolgimento (windowing) e le operazioni con stato
Costruire e ottimizzare soluzioni per i dati in tempo reale per casi d'uso aziendali
Struttura del corso
Programma del Corso - Giorno 1
• Introduzione ai concetti di trasmissione dei dati in streaming
• Fondamenti dell'elaborazione batch rispetto a quella in tempo reale
• Basi dell'architettura basata su eventi
• Casi d'uso comuni nel settore
• Panoramica dell'ecosistema di streaming
Giorno 2
• Pattern di progettazione dell'architettura di streaming
• Fondamenti dei sistemi di messaggistica distribuita
• Producer e consumer
• Argomenti (topics), partizioni e flusso dei dati
• Strategie di ingestion dei dati
Giorno 3
• Concetti e framework di elaborazione dello stream
• Tempo evento rispetto al tempo di elaborazione
• Tecniche di windowing e relativi casi d'uso
• Elaborazione dello stream con stato
• Basi della tolleranza ai guasti e del checkpointing
Giorno 4
• Trasformazione dei dati nelle pipeline di streaming
• ETL ed ELT nei sistemi in tempo reale
• Gestione ed evoluzione degli schemi
• Join di stream e arricchimento dei dati
• Introduzione ai servizi di streaming basati sul cloud
Giorno 5
• Monitoraggio e osservabilità nei sistemi di streaming
• Basi della sicurezza e del controllo degli accessi
• Ottimizzazione delle prestazioni e tuning
• Revisione della progettazione della pipeline end-to-end
• Casi d'uso del mondo reale, come il rilevamento delle frodi e l'elaborazione IoT
I corsi di formazione interaziendali richiedono più di 5 partecipanti.
Corso di formazione Trasmissione dei Dati in Streaming ed Elaborazione dei Dati in Tempo Reale - Prenotazione
Corso di formazione Trasmissione dei Dati in Streaming ed Elaborazione dei Dati in Tempo Reale - Richiesta
Trasmissione dei Dati in Streaming ed Elaborazione dei Dati in Tempo Reale - Richiesta di consulenza
Recensioni (1)
Esercizi pratici. La classe sarebbe dovuta durare 5 giorni, ma i 3 giorni sono stati sufficienti per chiarire molte delle domande che avevo lavorando con NiFi.
James - BHG Financial
Corso - Apache NiFi for Administrators
Traduzione automatica
Corsi in Arrivo
Corsi relativi
Advanced Apache Iceberg
21 oreQuesto corso di formazione guidato dall'instruttore, in Italia (online o in sede), è rivolto a professionisti dei dati di livello avanzato che desiderano ottimizzare i flussi di lavoro di elaborazione dei dati, garantire l'integrità dei dati e implementare soluzioni robuste per data lakehouse in grado di gestire le complessità delle moderne applicazioni big data.
Al termine di questo corso, i partecipanti saranno in grado di:
- Acquisire una comprensione approfondita dell'architettura di Iceberg, inclusa la gestione dei metadati e l'organizzazione dei file.
- Configurare Iceberg per un rendimento ottimale in vari ambienti e integrarlo con più motori di elaborazione dei dati.
- Gestire tabelle di Iceberg su larga scala, eseguire complesse modifiche dello schema e gestire l'evoluzione delle partizioni.
- Dominare le tecniche per ottimizzare le prestazioni delle query e l'efficienza della scansione dei dati per grandi set di dati.
- Implementare meccanismi per garantire la coerenza dei dati, gestire le garanzie transazionali e affrontare i fallimenti in ambienti distribuiti.
Fondamenti di Apache Iceberg
14 oreQuesto corso di formazione guidato dal docente (online o sul posto) è rivolto a professionisti dei dati di livello iniziale che desiderano acquisire le conoscenze e le competenze necessarie per utilizzare efficacemente Apache Iceberg per gestire dataset su larga scala, garantire l'integrità dei dati e ottimizzare i flussi di lavoro di elaborazione dei dati.
Al termine di questo corso, i partecipanti saranno in grado di:
- Acquisire una comprensione approfondita dell'architettura, delle funzionalità e dei vantaggi di Apache Iceberg.
- Conoscere i formati tabellari, la partizionamento, l'evoluzione dello schema e le capacità di time travel.
- Installare e configurare Apache Iceberg in diversi ambienti.
- Creare, gestire e manipolare tabelle Iceberg.
- Comprendere il processo di migrazione dei dati da altri formati tabellari a Iceberg.
Analisi dei Big Data con Google Colab e Apache Spark
14 oreQuesta formazione guidata dal formatore in Italia (online o sul posto) si rivolge a data scientist e ingegneri di livello intermedio che desiderano utilizzare Google Colab e Apache Spark per il processing e l'analisi dei big data.
Alla fine di questa formazione, i partecipanti saranno in grado di:
- Configurare un ambiente di big data utilizzando Google Colab e Spark.
- Processare e analizzare grandi set di dati efficacemente con Apache Spark.
- Visualizzare i big data in un ambiente collaborativo.
- Integrare Apache Spark con strumenti basati sul cloud.
Intelligenza Aziendale Big Data per le Agenzie Governative
35 oreGli avanzamenti tecnologici e l'aumento della quantità di informazioni stanno trasformando il modo in cui vengono condotti gli affari in molti settori, incluso quello governativo. Le agenzie governative generano e archiviano digitalmente dati a un ritmo crescente, grazie alla rapida crescita dei dispositivi mobili e delle applicazioni, dei sensori e dispositivi intelligenti, delle soluzioni di cloud computing e delle porte d'ingresso per i cittadini. Mentre le informazioni digitali si espandono e diventano più complesse, la gestione, l'elaborazione, lo stoccaggio, la sicurezza e la disposizione dei dati diventano anch'esse più complesse. Nuovi strumenti per la cattura, la ricerca, la scoperta e l'analisi stanno aiutando le organizzazioni a trarre intuizioni dai loro dati non strutturati. Il mercato governativo è al punto di svolta, realizzando che l'informazione è un bene strategico e che il governo deve proteggere, valorizzare e analizzare sia i dati strutturati che quelli non strutturati per servire meglio e soddisfare gli obiettivi della missione. Mentre i leader governativi si sforzano di evolvere organizzazioni basate sui dati per realizzare con successo la loro missione, stanno creando le basi per correlare le dipendenze tra eventi, persone, processi e informazioni.
Soluzioni governative ad alto valore saranno create da un mix delle tecnologie più innovative:
- Dispositivi mobili e applicazioni
- Servizi cloud
- Tecnologie social business e networking
- Big Data e analitica
Il Big Data è una delle soluzioni intelligenti per l'industria e consente al governo di prendere decisioni migliori basate su modelli rilevati dall'analisi di grandi volumi di dati, strutturati e non strutturati.
Ma raggiungere questi obiettivi richiede molto più che semplicemente accumulare quantità massicce di dati. “Comprendere questi volumi di Big Data richiede strumenti e tecnologie all'avanguardia in grado di analizzare ed estrarre conoscenze utili da flussi vasti e diversificati di informazioni”, hanno scritto Tom Kalil e Fen Zhao dell'Ufficio Tecnologia e Scienza della Casa Bianca in un post sul blog OSTP.
La Casa Bianca ha compiuto un passo verso l'aiuto delle agenzie a trovare queste tecnologie quando ha istituito l'Iniziativa Nazionale di Ricerca e Sviluppo Big Data nel 2012. L'iniziativa includeva più di 200 milioni di dollari per sfruttare al meglio l'esplosione del Big Data e gli strumenti necessari per analizzarlo.
Le sfide poste dal Big Data sono quasi altrettanto imponenti quanto la promessa è incoraggiante. Lo stoccaggio efficiente dei dati è una di queste sfide. Come sempre, i budget sono limitati, quindi le agenzie devono minimizzare il costo per megabyte dello stoccaggio e mantenere i dati facilmente accessibili in modo che gli utenti possano ottenerli quando lo desiderano e come ne hanno bisogno. L'backup di quantità massicce di dati aumenta la sfida.
Analizzare efficacemente i dati è un'altra sfida importante. Molte agenzie utilizzano strumenti commerciali che consentono loro di setacciare le montagne di dati, individuando tendenze che possono aiutarle a operare in modo più efficiente. (Uno studio recente di MeriTalk ha rilevato che i dirigenti IT federali ritengono che il Big Data possa aiutare le agenzie a risparmiare oltre 500 miliardi di dollari mentre soddisfa gli obiettivi della missione.).
Gli strumenti per il Big Data sviluppati su misura permettono inoltre alle agenzie di affrontare la necessità di analizzare i loro dati. Ad esempio, il Gruppo di Analisi dei Dati Computazionali del Laboratorio Nazionale Oak Ridge ha reso disponibile ad altre agenzie il suo sistema di analisi dei dati Piranha. Il sistema ha aiutato i ricercatori medici a trovare un collegamento che può avvisare i medici degli aneurismi aortici prima che si verifichino. Viene anche utilizzato per compiti più quotidiani, come setacciare curriculum vitae per connettere candidati con responsabili di assunzione.
Una Pratica Introduzione a Data Analysis e Big Data - 3 Giorni
21 oreI partecipanti che completeranno questo corso di formazione dal vivo con istruttore in Italia acquisiranno una comprensione pratica e reale di Big Data e delle relative tecnologie, metodologie e strumenti.
I partecipanti avranno l'opportunità di mettere in pratica queste conoscenze attraverso esercizi pratici. L'interazione di gruppo e il feedback dell'istruttore costituiscono una componente importante della classe.
Il corso inizia con un'introduzione ai concetti elementari di Big Data, quindi progredisce nei linguaggi di programmazione e nelle metodologie utilizzate per eseguire Data Analysis. Infine, discutiamo gli strumenti e l'infrastruttura che consentono Big Data lo storage, l'elaborazione distribuita e la Scalabilità.
Big Data e Advanced Analytics
42 oreBig Data e Advanced Analytics è l'applicazione di tecniche sofisticate e strumenti per analizzare grandi set di dati complessi in modo da ottenere indicazioni azionabili e prendere decisioni strategiche.
Questo corso guidato dall'insegnante (in linea o sul posto) è rivolto a professionisti avanzati dei dati che desiderano sfruttare metodi analitici di vanguardia e tecnologie big data per l'analisi predittiva, prescriptiva ed in tempo reale.
Al termine del corso, i partecipanti saranno in grado di:
- Progettare e implementare pipeline di elaborazione dati a grande scala sia per dati strutturati che non strutturati.
- Applicare tecniche avanzate di machine learning e deep learning su grandi set di dati.
- Sfruttare i framework di calcolo distribuito per l'analisi in tempo reale e lo streaming dei dati.
- Integrare l'analisi big data nei sistemi di intelligence aziendale e di presa delle decisioni.
Formato del Corso
- Lettura interattiva e discussione.
- Molte esercitazioni e pratica.
- Esecuzione pratica in un ambiente di laboratorio live.
Opzioni di Personalizzazione del Corso
- Per richiedere una formazione personalizzata per questo corso, si prega di contattarci per organizzare l'incontro.
Apache NiFi per Amministratori
21 oreApache NiFi è una piattaforma open-source, basata sui flussi, per l'integrazione dei dati e il processo degli eventi. Consente di automatizzare il routing, la trasformazione e la mediazione del sistema in tempo reale tra sistemi diversi, con un'interfaccia web e un controllo granulare.
Questo training guidato dal docente (in loco o remoto) è rivolto a amministratori e ingegneri di livello intermedio che desiderano distribuire, gestire, proteggere e ottimizzare i flussi di dati NiFi in ambienti di produzione.
Al termine di questo training, i partecipanti saranno in grado di:
- Installare, configurare e mantenere cluster Apache NiFi.
- Progettare e gestire flussi di dati da sorgenti e destinazioni varie.
- Implementare logiche di automazione dei flussi, routing e trasformazione.
- Ottimizzare le prestazioni, monitorare le operazioni e risolvere problemi.
Formato del Corso
- Lezione interattiva con discussione su architetture reali.
- Laboratori pratici: costruire, distribuire e gestire flussi.
- Esercizi basati su scenari in un ambiente live-lab.
Opzioni di Personalizzazione del Corso
- Per richiedere una formazione personalizzata per questo corso, si prega di contattarci per organizzare l'evento.
PySpark e Machine Learning
21 oreQuesto corso offre un'introduzione pratica alla creazione di workflow scalabili per l'elaborazione dei dati e il Machine Learning utilizzando PySpark. I partecipanti apprenderanno come Apache Spark opera all'interno degli ecosistemi moderni di Big Data e come elaborare in modo efficiente grandi dataset sfruttando i principi del calcolo distribuito.
Apache Spark Fundamentals
21 oreQuesto training guidato dal formatore in Italia (online o in presenza) è rivolto agli ingegneri che desiderano configurare e implementare il sistema Apache Spark per l'elaborazione di grandi quantità di dati.
Alla fine di questo corso, i partecipanti saranno in grado di:
- Installare e configurare Apache Spark.
- Lettura rapida ed analisi di grandi quantità di dati.
- Capire le differenze tra Apache Spark e Hadoop MapReduce e quando utilizzare ciascuno dei due.
- Integrare Apache Spark con altri strumenti di apprendimento automatico.
Amministrazione di Apache Spark
35 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto agli amministratori di sistema di livello principiante e intermedio che desiderano distribuire, gestire e ottimizzare i cluster Spark.
Al termine di questa formazione, i partecipanti saranno in grado di:
- Installare e configurare Apache Spark in vari ambienti.
- Gestisci le risorse del cluster e monitora le applicazioni Spark.
- Ottimizzare le prestazioni dei cluster Spark.
- Implementa misure di sicurezza e garantisci un'elevata disponibilità.
- Eseguire il debug e risolvere i problemi comuni di Spark.
Apache Spark nel Cloud
21 oreL'andamento della curva di apprendimento di Apache Spark si intensifica lentamente all'inizio, richiedendo molto sforzo per ottenere i primi risultati. Questo corso mira a superare la prima parte difficile. Dopo aver completato il corso, i partecipanti comprenderanno le basi di Apache Spark, sapranno distinguere chiaramente RDD da DataFrame, impareranno l'API Python e Scala, capiranno gli esecutori e i task, ecc. Inoltre, seguendo le best practice, questo corso si concentra fortemente sulla distribuzione nel cloud, su Databricks e AWS. Gli studenti comprenderanno anche le differenze tra AWS EMR e AWS Glue, uno dei servizi Spark più recenti di AWS.
PUBBLICO:
Data Engineer, DevOps, Data Scientist
Python e Spark per Big Data (PySpark)
21 oreIn questo corso di formazione dal vivo con istruttore in Italia, i partecipanti impareranno come utilizzare Python e Spark insieme per analizzare i big data mentre lavorano su esercizi pratici.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Scopri come utilizzare Spark con Python per analizzare Big Data.
- Lavora su esercizi che imitano casi del mondo reale.
- Utilizzare diversi strumenti e tecniche per l'analisi dei big data utilizzando PySpark.
Python, Spark e Hadoop per Big Data
21 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto agli sviluppatori che desiderano utilizzare e integrare Spark, Hadoop e Python per elaborare, analizzare e trasformare set di dati grandi e complessi.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Configurare l'ambiente necessario per iniziare a elaborare i big data con Spark, Hadoop e Python.
- Comprendere le funzionalità, i componenti principali e l'architettura di Spark e Hadoop.
- Scopri come integrare Spark, Hadoop e Python per l'elaborazione dei big data.
- Esplora gli strumenti nell'ecosistema Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka e Flume).
- Crea sistemi di raccomandazione di filtraggio collaborativi simili a Netflix, YouTube, Amazon, Spotify e Google.
- Usa Apache Mahout per ridimensionare gli algoritmi di machine learning.
Stratio: Moduli Rocket e Intelligence con PySpark
14 oreStratio è una piattaforma orientata ai dati che integra big data, AI e governance in un'unica soluzione. I moduli Rocket e Intelligence permettono esplorazioni rapide dei dati, trasformazioni ed analisi avanzate negli ambienti aziendali.
Questa formazione guidata dal docente (online o in sede) è rivolta a professionisti dei dati di livello intermedio che desiderano utilizzare i moduli Rocket e Intelligence di Stratio efficacemente con PySpark, concentrandosi su strutture di ciclo, funzioni definite dall'utente e logica avanzata dei dati.
Al termine di questa formazione, i partecipanti saranno in grado di:
- Navigare e lavorare all'interno della piattaforma Stratio utilizzando i moduli Rocket e Intelligence.
- Applicare PySpark nel contesto di ingestione, trasformazione ed analisi dei dati.
- Utilizzare cicli e logica condizionale per controllare i flussi di lavoro dei dati e le attività di feature engineering.
- Creare e gestire funzioni definite dall'utente (UDFs) per operazioni di dati riutilizzabili in PySpark.
Formato del Corso
- Lezione interattiva e discussione.
- Molte esercitazioni e pratica.
- Implementazione pratica in un ambiente di laboratorio live.
Opzioni di Personalizzazione del Corso
- Per richiedere una formazione personalizzata per questo corso, contattateci per organizzare l'evento.