Corso di formazione Talend Big Data Integration
Talend Open Studio for Big Data è uno strumento ETL open source per il processamento di big data. Include un ambiente di sviluppo per interagire con le fonti e i destinatari di big data, eseguendo lavori senza dover scrivere codice.
Questo corso live guidato da un istruttore (online o in sede) è rivolto a professionisti tecnici che desiderano utilizzare Talend Open Studio for Big Data per semplificare il processo di lettura e analisi di big data.
Al termine di questo training, i partecipanti saranno in grado di:
- Installare e configurare Talend Open Studio for Big Data.
- Connettersi con sistemi big data come Cloudera, HortonWorks, MapR, Amazon EMR e Apache.
- Comprendere e configurare i componenti e i connettori di big data di Open Studio.
- Configurare parametri per generare automaticamente codice MapReduce.
- Utilizzare l'interfaccia a trascinamento e rilascio di Open Studio per eseguire lavori Hadoop.
- Prototipare pipeline big data.
- Automatizzare progetti di integrazione big data.
Formato del Corso
- Lezione interattiva e discussione.
- Numerosi esercizi e pratica.
- Implementazione pratica in un ambiente lab live.
Opzioni di Personalizzazione del Corso
- Per richiedere una formazione personalizzata per questo corso, contattaci per organizzare.
Struttura del corso
Introduzione
Panoramica delle funzionalità e dell'architettura di "Open Studio for Big Data"
Configurazione di Open Studio for Big Data
Navigazione nell'interfaccia utente
Comprendere i componenti e connettori big data
Connessione a un cluster Hadoop
Lettura e scrittura di dati
Elaborazione dei dati con Hive e MapReduce
Analisi dei risultati
Miglioramento della qualità dei big data
Costruzione di una pipeline big data
Gestione degli utenti, gruppi, ruoli e progetti
Distribuzione di Open Studio in produzione
Monitoraggio di Open Studio
Risoluzione dei problemi
Riepilogo e conclusioni
Requisiti
- Conoscenza delle basi dei database relazionali
- Conoscenza dei concetti di data warehousing
- Conoscenza dei concetti ETL (Extract, Transform, Load)
Pubblico Target
- Professionisti di business intelligence
- Professionisti di database
- Sviluppatori SQL
- Sviluppatori ETL
- Architetti soluzioni
- Architetti di dati
- Professionisti di data warehousing
- Amministratori di sistema e integratori
I corsi di formazione interaziendali richiedono più di 5 partecipanti.
Corso di formazione Talend Big Data Integration - Prenotazione
Corso di formazione Talend Big Data Integration - Richiesta
Talend Big Data Integration - Richiesta di consulenza
Recensioni (1)
Esercizi pratici. La classe sarebbe dovuta durare 5 giorni, ma i 3 giorni sono stati sufficienti per chiarire molte delle domande che avevo lavorando con NiFi.
James - BHG Financial
Corso - Apache NiFi for Administrators
Traduzione automatica
Corsi in Arrivo
Corsi relativi
Advanced Apache Iceberg
21 oreQuesto corso di formazione guidato dall'instruttore, in Italia (online o in sede), è rivolto a professionisti dei dati di livello avanzato che desiderano ottimizzare i flussi di lavoro di elaborazione dei dati, garantire l'integrità dei dati e implementare soluzioni robuste per data lakehouse in grado di gestire le complessità delle moderne applicazioni big data.
Al termine di questo corso, i partecipanti saranno in grado di:
- Acquisire una comprensione approfondita dell'architettura di Iceberg, inclusa la gestione dei metadati e l'organizzazione dei file.
- Configurare Iceberg per un rendimento ottimale in vari ambienti e integrarlo con più motori di elaborazione dei dati.
- Gestire tabelle di Iceberg su larga scala, eseguire complesse modifiche dello schema e gestire l'evoluzione delle partizioni.
- Dominare le tecniche per ottimizzare le prestazioni delle query e l'efficienza della scansione dei dati per grandi set di dati.
- Implementare meccanismi per garantire la coerenza dei dati, gestire le garanzie transazionali e affrontare i fallimenti in ambienti distribuiti.
Fondamenti di Apache Iceberg
14 oreQuesto corso di formazione guidato dal docente (online o sul posto) è rivolto a professionisti dei dati di livello iniziale che desiderano acquisire le conoscenze e le competenze necessarie per utilizzare efficacemente Apache Iceberg per gestire dataset su larga scala, garantire l'integrità dei dati e ottimizzare i flussi di lavoro di elaborazione dei dati.
Al termine di questo corso, i partecipanti saranno in grado di:
- Acquisire una comprensione approfondita dell'architettura, delle funzionalità e dei vantaggi di Apache Iceberg.
- Conoscere i formati tabellari, la partizionamento, l'evoluzione dello schema e le capacità di time travel.
- Installare e configurare Apache Iceberg in diversi ambienti.
- Creare, gestire e manipolare tabelle Iceberg.
- Comprendere il processo di migrazione dei dati da altri formati tabellari a Iceberg.
Analisi dei Big Data con Google Colab e Apache Spark
14 oreQuesta formazione guidata dal formatore in Italia (online o sul posto) si rivolge a data scientist e ingegneri di livello intermedio che desiderano utilizzare Google Colab e Apache Spark per il processing e l'analisi dei big data.
Alla fine di questa formazione, i partecipanti saranno in grado di:
- Configurare un ambiente di big data utilizzando Google Colab e Spark.
- Processare e analizzare grandi set di dati efficacemente con Apache Spark.
- Visualizzare i big data in un ambiente collaborativo.
- Integrare Apache Spark con strumenti basati sul cloud.
Apache NiFi per Amministratori
21 oreApache NiFi è una piattaforma open-source, basata sui flussi, per l'integrazione dei dati e il processo degli eventi. Consente di automatizzare il routing, la trasformazione e la mediazione del sistema in tempo reale tra sistemi diversi, con un'interfaccia web e un controllo granulare.
Questo training guidato dal docente (in loco o remoto) è rivolto a amministratori e ingegneri di livello intermedio che desiderano distribuire, gestire, proteggere e ottimizzare i flussi di dati NiFi in ambienti di produzione.
Al termine di questo training, i partecipanti saranno in grado di:
- Installare, configurare e mantenere cluster Apache NiFi.
- Progettare e gestire flussi di dati da sorgenti e destinazioni varie.
- Implementare logiche di automazione dei flussi, routing e trasformazione.
- Ottimizzare le prestazioni, monitorare le operazioni e risolvere problemi.
Formato del Corso
- Lezione interattiva con discussione su architetture reali.
- Laboratori pratici: costruire, distribuire e gestire flussi.
- Esercizi basati su scenari in un ambiente live-lab.
Opzioni di Personalizzazione del Corso
- Per richiedere una formazione personalizzata per questo corso, si prega di contattarci per organizzare l'evento.
PySpark e Machine Learning
21 oreQuesto corso offre un'introduzione pratica alla creazione di workflow scalabili per l'elaborazione dei dati e il Machine Learning utilizzando PySpark. I partecipanti apprenderanno come Apache Spark opera all'interno degli ecosistemi moderni di Big Data e come elaborare in modo efficiente grandi dataset sfruttando i principi del calcolo distribuito.
Apache Spark Fundamentals
21 oreQuesto training guidato dal formatore in Italia (online o in presenza) è rivolto agli ingegneri che desiderano configurare e implementare il sistema Apache Spark per l'elaborazione di grandi quantità di dati.
Alla fine di questo corso, i partecipanti saranno in grado di:
- Installare e configurare Apache Spark.
- Lettura rapida ed analisi di grandi quantità di dati.
- Capire le differenze tra Apache Spark e Hadoop MapReduce e quando utilizzare ciascuno dei due.
- Integrare Apache Spark con altri strumenti di apprendimento automatico.
Amministrazione di Apache Spark
35 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto agli amministratori di sistema di livello principiante e intermedio che desiderano distribuire, gestire e ottimizzare i cluster Spark.
Al termine di questa formazione, i partecipanti saranno in grado di:
- Installare e configurare Apache Spark in vari ambienti.
- Gestisci le risorse del cluster e monitora le applicazioni Spark.
- Ottimizzare le prestazioni dei cluster Spark.
- Implementa misure di sicurezza e garantisci un'elevata disponibilità.
- Eseguire il debug e risolvere i problemi comuni di Spark.
Apache Spark nel Cloud
21 oreL'andamento della curva di apprendimento di Apache Spark si intensifica lentamente all'inizio, richiedendo molto sforzo per ottenere i primi risultati. Questo corso mira a superare la prima parte difficile. Dopo aver completato il corso, i partecipanti comprenderanno le basi di Apache Spark, sapranno distinguere chiaramente RDD da DataFrame, impareranno l'API Python e Scala, capiranno gli esecutori e i task, ecc. Inoltre, seguendo le best practice, questo corso si concentra fortemente sulla distribuzione nel cloud, su Databricks e AWS. Gli studenti comprenderanno anche le differenze tra AWS EMR e AWS Glue, uno dei servizi Spark più recenti di AWS.
PUBBLICO:
Data Engineer, DevOps, Data Scientist
Python e Spark per Big Data (PySpark)
21 oreIn questo corso di formazione dal vivo con istruttore in Italia, i partecipanti impareranno come utilizzare Python e Spark insieme per analizzare i big data mentre lavorano su esercizi pratici.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Scopri come utilizzare Spark con Python per analizzare Big Data.
- Lavora su esercizi che imitano casi del mondo reale.
- Utilizzare diversi strumenti e tecniche per l'analisi dei big data utilizzando PySpark.
Python, Spark e Hadoop per Big Data
21 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto agli sviluppatori che desiderano utilizzare e integrare Spark, Hadoop e Python per elaborare, analizzare e trasformare set di dati grandi e complessi.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Configurare l'ambiente necessario per iniziare a elaborare i big data con Spark, Hadoop e Python.
- Comprendere le funzionalità, i componenti principali e l'architettura di Spark e Hadoop.
- Scopri come integrare Spark, Hadoop e Python per l'elaborazione dei big data.
- Esplora gli strumenti nell'ecosistema Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka e Flume).
- Crea sistemi di raccomandazione di filtraggio collaborativi simili a Netflix, YouTube, Amazon, Spotify e Google.
- Usa Apache Mahout per ridimensionare gli algoritmi di machine learning.
Stratio: Moduli Rocket e Intelligence con PySpark
14 oreStratio è una piattaforma orientata ai dati che integra big data, AI e governance in un'unica soluzione. I moduli Rocket e Intelligence permettono esplorazioni rapide dei dati, trasformazioni ed analisi avanzate negli ambienti aziendali.
Questa formazione guidata dal docente (online o in sede) è rivolta a professionisti dei dati di livello intermedio che desiderano utilizzare i moduli Rocket e Intelligence di Stratio efficacemente con PySpark, concentrandosi su strutture di ciclo, funzioni definite dall'utente e logica avanzata dei dati.
Al termine di questa formazione, i partecipanti saranno in grado di:
- Navigare e lavorare all'interno della piattaforma Stratio utilizzando i moduli Rocket e Intelligence.
- Applicare PySpark nel contesto di ingestione, trasformazione ed analisi dei dati.
- Utilizzare cicli e logica condizionale per controllare i flussi di lavoro dei dati e le attività di feature engineering.
- Creare e gestire funzioni definite dall'utente (UDFs) per operazioni di dati riutilizzabili in PySpark.
Formato del Corso
- Lezione interattiva e discussione.
- Molte esercitazioni e pratica.
- Implementazione pratica in un ambiente di laboratorio live.
Opzioni di Personalizzazione del Corso
- Per richiedere una formazione personalizzata per questo corso, contattateci per organizzare l'evento.
Talend Administration Center (TAC)
14 oreQuesto corso di formazione guidato dall'instruttore (online o sul posto) è rivolto ai responsabili dei sistemi, ai data scientist e agli analisti aziendali che desiderano configurare Talend Administration Center per distribuire e gestire i ruoli e le attività dell'organizzazione.
Al termine di questo corso, i partecipanti saranno in grado di:
- Installare e configurare Talend Administration Center.
- Capire e implementare i fondamenti della gestione Talend.
- Creare, distribuire ed eseguire progetti o attività aziendali in Talend.
- Monitorare la sicurezza dei set di dati e sviluppare routine aziendali basate sul framework TAC.
- Ottenere una comprensione più ampia delle applicazioni big data.
Talend Data Stewardship
14 oreQuesto training guidato dal formatore, live (online o in sede) è rivolto a data analyst con livello di competenza da principianti a intermedi che desiderano approfondire le proprie conoscenze e competenze nella gestione e miglioramento della qualità dei dati utilizzando Talend Data Stewardship.
Al termine di questo training, i partecipanti saranno in grado di:
- Acquisire una comprensione completa del ruolo dello stewardship dei dati nella manutenzione della qualità dei dati.
- Utilizzare Talend Data Stewardship per la gestione delle attività relative alla qualità dei dati.
- Creati, assegnare e gestire attività all'interno di Talend Data Stewardship, compresa la personalizzazione del workflow.
- Utilizzare le funzionalità di reporting e monitoraggio dell'outil per tracciare la qualità dei dati e gli sforzi dello stewardship.
Talend Open Studio for ESB
21 oreIn questo corso guidato dal formatore, i partecipanti impareranno a utilizzare Talend Open Studio for ESB per creare, connettere, mediare e gestire servizi e le loro interazioni.
Al termine di questo training, i partecipanti saranno in grado di
- Integrare, migliorare e distribuire tecnologie ESB come pacchetti singoli in vari ambienti di deployment.
- Comprendere e utilizzare i componenti più comuni di Talend Open Studio.
- Integrare qualsiasi applicazione, database, API o servizi Web.
- Integrare in modo fluido sistemi e applicazioni eterogenei.
- Incorporare librerie di codice Java esistenti per estendere i progetti.
- Sfruttare componenti e codice della community per estendere i progetti.
- Integrare rapidamente sistemi, applicazioni e fonti dati in un ambiente Eclipse a trascinamento e rilascio.
- Ridurre il tempo di sviluppo e i costi di manutenzione generando codice ottimizzato e riutilizzabile.