Big Data Training Courses

Big Data Training Courses

I corsi di formazione di Big Data dal vivo con istruttore iniziano con un´introduzione ai concetti elementali sui Big Data, quindi avanzano nei linguaggi di programmazione e nelle metodologie utilizzate per eseguire l´analisi dei dati. Gli strumenti e l´infrastruttura per abilitare l´archiviazione dei Big Data, l´elaborazione distribuita e la scalabilità sono discussi, confrontati e implementati nelle sessioni di pratica dimostrativa. La formazione sui Big Data è disponibile come formazione dal vivo sul posto o formazione dal vivo a distanza. La formazione on-site in loco può essere svolta localmente presso la sede del cliente a Italia o nei centri di formazione NobleProg a Italia. La formazione in remoto dal vivo viene effettuata tramite un desktop remoto interattivo. NobleProg, Il tuo fornitore di formazione locale.

Recensioni

★★★★★
★★★★★

Schema generale del corso Big Data

CodiceNomeDurataPanoramica
smtwebintSemantic Web Overview7 oreIl Semantic Web è un movimento collaborativo guidato dal World Wide Web Consortium (W3C) che promuove formati comuni per i dati sul World Wide Web. Il Web semantico offre una struttura comune che consente di condividere e riutilizzare i dati tra i confini di applicazioni, aziende e comunità.
tigonTigon: Real-time Streaming for the Real World14 oreTigon è un open source, in tempo reale, a bassa latenza, highthroughput, nativo YARN, framework di elaborazione del flusso che si basa su HDFS e HBase per la persistenza Le applicazioni Tigon indirizzano i casi d'uso come rilevamento e analisi delle intrusioni della rete, analisi dei mercati dei social media, analisi della posizione e raccomandazioni in tempo reale agli utenti Questo corso di formazione dal vivo con istruttore introduce l'approccio di Tigon alla combinazione di elaborazione in tempo reale e in batch mentre accompagna i partecipanti alla creazione di un'applicazione di esempio Alla fine di questa formazione, i partecipanti saranno in grado di: Crea potenti applicazioni di elaborazione dei flussi per gestire grandi volumi di dati Elabora sorgenti di streaming come Twitter e registri di Webserver Usa Tigon per unire, filtrare e aggregare rapidamente i flussi Pubblico Sviluppatori Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
BDATRBig Data Analytics for Telecom Regulators16 orePer soddisfare la conformità dei regolatori, i fornitori di servizi di comunicazione (CSP) possono attingere a Big Analisi dei dati che non solo li aiutano a soddisfare la conformità ma nell'ambito della stessa progetto possono aumentare la soddisfazione del cliente e quindi ridurre il tasso di abbandono In effetti da allora la conformità è legata alla qualità del servizio legata a un contratto, a qualsiasi iniziativa verso il rispetto del conformità, migliorerà il "vantaggio competitivo" dei CSP Pertanto, è importante che I regolatori dovrebbero essere in grado di consigliare / guidare una serie di pratiche analitiche sui Big Data per i CSP che lo faranno essere di mutuo vantaggio tra i regolatori e i CSP 2 giorni di corso: 8 moduli, 2 ore ciascuno = 16 ore .
graphcomputingIntroduction to Graph Computing28 oreUn gran numero di problemi del mondo reale può essere descritto in termini di grafici Ad esempio, il grafico Web, il grafico della rete sociale, il grafico della rete ferroviaria e il grafico della lingua Questi grafici tendono ad essere estremamente grandi; elaborarli richiede un set specializzato di strumenti e processi, questi strumenti e processi possono essere indicati come Graph Computing (noto anche come Graph Analytics) In questo corso di formazione dal vivo con istruttore, i partecipanti apprenderanno le offerte tecnologiche e gli approcci di implementazione per l'elaborazione dei dati del grafico Lo scopo è quello di identificare gli oggetti del mondo reale, le loro caratteristiche e relazioni, quindi modellare queste relazioni e elaborarle come dati utilizzando un approccio di calcolo grafico Iniziamo con una panoramica ampia e concentriamo gli strumenti specifici mentre passiamo attraverso una serie di studi di casi, esercitazioni pratiche e implementazioni dal vivo Alla fine di questa formazione, i partecipanti saranno in grado di: Comprendere in che modo i dati del grafico vengono mantenuti e attraversati Seleziona il framework migliore per una determinata attività (dai database del grafico ai framework di elaborazione batch) Implementa Hadoop, Spark, GraphX ​​e Pregel per eseguire il calcolo del grafico su più macchine in parallelo Visualizza i problemi dei big data di realworld in termini di grafici, processi e attraversamenti Pubblico Sviluppatori Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
matlabpredanalyticsMatlab for Predictive Analytics21 oreL'analisi predittiva è il processo di utilizzo dell'analisi dei dati per fare previsioni sul futuro Questo processo utilizza i dati insieme a tecniche di data mining, statistiche e machine learning per creare un modello predittivo per la previsione di eventi futuri In questo corso di formazione dal vivo con istruttore, i partecipanti impareranno come usare Matlab per costruire modelli predittivi e applicarli a grandi serie di dati di esempio per prevedere eventi futuri basati sui dati Alla fine di questa formazione, i partecipanti saranno in grado di: Creare modelli predittivi per analizzare i modelli nei dati storici e transazionali Utilizzare la modellazione predittiva per identificare rischi e opportunità Costruisci modelli matematici che catturino tendenze importanti Utilizzare i dati di dispositivi e sistemi aziendali per ridurre gli sprechi, risparmiare tempo o ridurre i costi Pubblico Sviluppatori ingegneri Esperti di dominio Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
nifidevApache NiFi for Developers7 oreApache NiFi (Hortonworks DataFlow) è una piattaforma per la logistica dei dati integrata in tempo reale e una semplice piattaforma di elaborazione degli eventi che consente lo spostamento, il monitoraggio e l'automazione dei dati tra i sistemi È scritto utilizzando la programmazione basata sul flusso e fornisce un'interfaccia utente basata su web per gestire i flussi di dati in tempo reale In questo corso di formazione dal vivo, istruito, i partecipanti apprenderanno i fondamenti della programmazione basata sul flusso mentre sviluppano un numero di estensioni demo, componenti e processori utilizzando Apache NiFi Alla fine di questa formazione, i partecipanti saranno in grado di: Comprendere i concetti di architettura e flusso di dati di NiFi Sviluppa estensioni utilizzando NiFi e API di terze parti Personalizzato sviluppa il proprio processore Apache Nifi Integra ed elabora i dati in tempo reale da formati di file e origini dati diversi e non comuni Pubblico Sviluppatori Ingegneri dei dati Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
nifiApache NiFi for Administrators21 oreApache NiFi (Hortonworks DataFlow) è una piattaforma per la logistica dei dati integrata in tempo reale e una semplice piattaforma di elaborazione degli eventi che consente lo spostamento, il monitoraggio e l'automazione dei dati tra i sistemi È scritto utilizzando la programmazione basata sul flusso e fornisce un'interfaccia utente basata su web per gestire i flussi di dati in tempo reale In questo corso di formazione dal vivo con istruttore, i partecipanti impareranno come implementare e gestire Apache NiFi in un ambiente di laboratorio dal vivo Alla fine di questa formazione, i partecipanti saranno in grado di: Installa e configura Apachi NiFi Sorgente, trasformazione e gestione dei dati da diverse fonti di dati distribuite, inclusi database e grandi laghi di dati Automatizza i flussi di dati Abilita analisi di streaming Applicare vari approcci per l'ingestione dei dati Trasforma i Big Data e le informazioni di business Pubblico Amministratori di sistema Ingegneri dei dati Sviluppatori DevOps Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
solrcloudSolrCloud14 oreApache SolrCloud è un motore di elaborazione dati distribuito che facilita la ricerca e l'indicizzazione di file su una rete distribuita In questo corso di formazione dal vivo con istruttore, i partecipanti impareranno come impostare un'istanza SolrCloud su Amazon AWS Alla fine di questa formazione, i partecipanti saranno in grado di: Comprendere le funzionalità di SolCloud e il modo in cui esse si confrontano con quelle dei cluster di masterslave convenzionali Configura un cluster centralizzato SolCloud Automatizza i processi come comunicare con i frammenti, aggiungere documenti ai frammenti, ecc Utilizzare Zookeeper in combinazione con SolrCloud per automatizzare ulteriormente i processi Utilizzare l'interfaccia per gestire la segnalazione degli errori Caricare il bilanciamento di un'installazione SolrCloud Configurare SolrCloud per l'elaborazione e il failover continui Pubblico Solr Developers Capi progetto Amministratori di sistema Cerca analisti Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
datavaultData Vault: Building a Scalable Data Warehouse28 oreLa modellazione di data vault è una tecnica di modellazione di database che fornisce memoria storica a lungo termine di dati provenienti da più origini Un data vault memorizza una singola versione dei fatti o "tutti i dati, sempre" Il suo design flessibile, scalabile, coerente e adattabile racchiude gli aspetti migliori di 3a forma normale (3NF) e schema a stella In questo corso di formazione dal vivo con istruttore, i partecipanti impareranno come costruire un Data Vault Alla fine di questa formazione, i partecipanti saranno in grado di: Comprendere i concetti di architettura e design alla base di Data Vault 20 e la sua interazione con Big Data, NoSQL e AI Utilizzare tecniche di vaulting dei dati per abilitare il controllo, la traccia e l'ispezione dei dati storici in un data warehouse Sviluppare un processo ETL (Estrarre, Trasformare, Caricare) coerente e ripetibile Costruisci e distribuisci magazzini altamente scalabili e ripetibili Pubblico Modellatori di dati Specialista di data warehousing Specialisti in Business Intelligence Ingegneri dei dati Amministratori del database Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
datameerDatameer for Data Analysts14 oreDatameer è una piattaforma di analisi e business intelligence basata su Hadoop Consente agli utenti finali di accedere, esplorare e correlare dati di grandi dimensioni, strutturati, semistrutturati e non strutturati in modo facile da usare In questo corso di formazione dal vivo, istruito, i partecipanti impareranno come utilizzare Datameer per superare la curva di apprendimento ripida di Hadoop mentre passano attraverso l'installazione e l'analisi di una serie di fonti di dati di grandi dimensioni Alla fine di questa formazione, i partecipanti saranno in grado di: Creare, curare e esplorare in modo interattivo un lago di dati aziendali Accedere ai data warehouse aziendali, ai database transazionali e ad altri negozi di analisi Utilizzare l'interfaccia utente di un foglio di calcolo per progettare condotte di elaborazione dati endtoend Accedi a funzioni preconfigurate per esplorare relazioni dati complesse Utilizzare le procedure guidate di draganddrop per visualizzare i dati e creare dashboard Utilizza tabelle, grafici, grafici e mappe per analizzare i risultati delle query Pubblico Analisti di dati Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
ApacheIgniteApache Ignite: Improve Speed, Scale and Availability with In-Memory Computing14 oreApache Ignite is an in-memory computing platform that sits between the application and data layer to improve speed, scale, and availability.

In this instructor-led, live training, participants will learn the principles behind persistent and pure in-memory storage as they step through the creation of a sample in-memory computing project.

By the end of this training, participants will be able to:

- Use Ignite for in-memory, on-disk persistence as well as a purely distributed in-memory database.
- Achieve persistence without syncing data back to a relational database.
- Use Ignite to carry out SQL and distributed joins.
- Improve performance by moving data closer to the CPU, using RAM as a storage.
- Spread data sets across a cluster to achieve horizontal scalability.
- Integrate Ignite with RDBMS, NoSQL, Hadoop and machine learning processors.

Audience

- Developers

Format of the course

- Part lecture, part discussion, exercises and heavy hands-on practice
sparkpythonPython and Spark for Big Data (PySpark)21 orePython è un linguaggio di programmazione di alto livello famoso per la sua chiara sintassi e leggibilità del codice Spark è un motore di elaborazione dati utilizzato per interrogare, analizzare e trasformare grandi dati PySpark consente agli utenti di interfacciare Spark con Python In questo corso di formazione dal vivo con istruttore, i partecipanti impareranno come usare Python e Spark insieme per analizzare i big data mentre lavorano sugli esercizi di handson Alla fine di questa formazione, i partecipanti saranno in grado di: Impara come usare Spark con Python per analizzare i Big Data Lavora su esercizi che imitano le circostanze del mondo reale Usa diversi strumenti e tecniche per l'analisi dei big data usando PySpark Pubblico Sviluppatori Professionisti IT Scienziati di dati Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
vespaVespa: Serving Large-Scale Data in Real-Time14 oreVespa è un motore open source per l'elaborazione e il trattamento dei big data creato da Yahoo È utilizzato per rispondere alle domande degli utenti, formulare raccomandazioni e fornire contenuti e annunci personalizzati in tempo reale Questo corso di formazione dal vivo con istruttore introduce le sfide di offrire dati di grandi dimensioni e partecipa ai partecipanti attraverso la creazione di un'applicazione in grado di calcolare le risposte alle richieste degli utenti, su dataset di grandi dimensioni in tempo reale Alla fine di questa formazione, i partecipanti saranno in grado di: Usa Vespa per calcolare rapidamente i dati (memorizzare, cercare, classificare, organizzare) al momento di servire mentre un utente aspetta Implementa Vespa in applicazioni esistenti che includono ricerca di funzionalità, consigli e personalizzazione Integrare e distribuire Vespa con i sistemi di big data esistenti come Hadoop e Storm Pubblico Sviluppatori Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
apexApache Apex: Processing Big Data-in-Motion21 oreApache Apex è una piattaforma YARNnative che unifica l'elaborazione di stream e batch Elabora big datainmotion in modo scalabile, performante, faulttolerant, stateful, secure, distributed e facilmente utilizzabile Questo corso di formazione dal vivo con istruttore introduce l'architettura di elaborazione del flusso unificata di Apache Apex e accompagna i partecipanti attraverso la creazione di un'applicazione distribuita utilizzando Apex su Hadoop Alla fine di questa formazione, i partecipanti saranno in grado di: Comprendere i concetti di pipeline di elaborazione dati come connettori per sorgenti e sink, trasformazioni di dati comuni, ecc Costruisci, ridimensiona e ottimizza un'applicazione Apex Elabora flussi di dati in tempo reale in modo affidabile e con una latenza minima Utilizzare Apex Core e la libreria Apex Malhar per abilitare lo sviluppo rapido delle applicazioni Utilizzare l'API Apex per scrivere e riutilizzare il codice Java esistente Integrare Apex in altre applicazioni come motore di elaborazione Accordare, testare e ridimensionare le applicazioni Apex Pubblico Sviluppatori Architetti aziendali Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
alluxioAlluxio: Unifying Disparate Storage Systems7 oreAlexio è un sistema di storage distribuito virtuale opensource che unifica sistemi di storage eterogenei e consente alle applicazioni di interagire con i dati a velocità di memoria Viene utilizzato da aziende come Intel, Baidu e Alibaba In questo corso di formazione dal vivo, istruito, i partecipanti apprenderanno come utilizzare Alexio per collegare diversi sistemi di calcolo con sistemi di archiviazione e gestire in modo efficiente i dati di scala multipetabyte mentre passano attraverso la creazione di un'applicazione con Alluxio Alla fine di questa formazione, i partecipanti saranno in grado di: Sviluppa un'applicazione con Alluxio Connetti i sistemi e le applicazioni di Big Data preservando uno spazio dei nomi Estrarre in modo efficiente il valore dai big data in qualsiasi formato di archiviazione Migliora le prestazioni del carico di lavoro Distribuisci e gestisci Alluxio standalone o cluster Pubblico Scienziato dei dati Sviluppatore Amministratore di sistema Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
flinkFlink for Scalable Stream and Batch Data Processing28 oreApache Flink è un framework opensource per lo streaming scalabile e l'elaborazione dei dati batch Questo corso di formazione dal vivo con istruttore introduce i principi e gli approcci alla base del flusso distribuito e dell'elaborazione dei dati in batch e accompagna i partecipanti alla creazione di un'applicazione di streaming di dati in tempo reale Alla fine di questa formazione, i partecipanti saranno in grado di: Impostare un ambiente per lo sviluppo di applicazioni di analisi dei dati Pacchetti, esegui e monitora le applicazioni di streaming dati basate su Flink, faulttolerant Gestire diversi carichi di lavoro Eseguire analisi avanzate utilizzando Flink ML Imposta un cluster Flink multinodo Misura e ottimizza le prestazioni Integrare Flink con diversi sistemi di Big Data Confronta le funzionalità di Flink con quelle di altri framework di elaborazione di big data Pubblico Sviluppatori architetti Ingegneri dei dati Professionisti di analisi Responsabili tecnici Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
samzaSamza for Stream Processing14 oreApache Samza è un opensource nearrealtime, un framework computazionale asincrono per l'elaborazione del flusso Utilizza Apache Kafka per la messaggistica e Apache Hadoop YARN per la tolleranza ai guasti, l'isolamento del processore, la sicurezza e la gestione delle risorse Questo corso di formazione dal vivo con istruttore introduce i principi che stanno alla base dei sistemi di messaggistica e dell'elaborazione del flusso distribuito, mentre i partecipanti a piedi attraverso la creazione di un esempio di progetto basato su Samza e l'esecuzione di un lavoro Alla fine di questa formazione, i partecipanti saranno in grado di: Usa Samza per semplificare il codice necessario per produrre e consumare messaggi Disaccoppia la gestione dei messaggi da un'applicazione Usa Samza per implementare il calcolo asincrono nearrealtime Utilizzare l'elaborazione del flusso per fornire un livello più alto di astrazione sui sistemi di messaggistica Pubblico Sviluppatori Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
zeppelinZeppelin for Interactive Data Analytics14 oreApache Zeppelin è un notebook in rete per catturare, esplorare, visualizzare e condividere i dati basati su Hadoop e Spark Questo corso di formazione dal vivo con istruttore introduce i concetti alla base dell'analisi dei dati interattiva e accompagna i partecipanti attraverso l'implementazione e l'utilizzo di Zeppelin in un ambiente singolo o multiutente Alla fine di questa formazione, i partecipanti saranno in grado di: Installa e configura Zeppelin Sviluppa, organizza, esegui e condividi i dati in un'interfaccia basata su browser Visualizza i risultati senza fare riferimento alla riga di comando o ai dettagli del cluster Esegui e collabora a lunghi flussi di lavoro Lavora con uno qualsiasi dei vari linguaggi di plug-in / elaborazione dei dati, come Scala (con Apache Spark), Python (con Apache Spark), Spark SQL, JDBC, Markdown e Shell Integrare Zeppelin con Spark, Flink e Map Reduce Istanze multiutente sicure di Zeppelin con Apache Shiro Pubblico Ingegneri dei dati Analisti di dati Scienziati di dati Sviluppatori di software Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
magellanMagellan: Geospatial Analytics on Spark14 oreMagellan è un motore di esecuzione distribuito opensource per l'analisi geospaziale su big data Implementato su Apache Spark, estende Spark SQL e fornisce un'astrazione relazionale per l'analisi geospaziale Questo corso di formazione dal vivo con istruttore introduce i concetti e gli approcci per l'implementazione dell'analisi geospaziale e accompagna i partecipanti attraverso la creazione di un'applicazione di analisi predittiva utilizzando Magellan su Spark Alla fine di questa formazione, i partecipanti saranno in grado di: Interrogare, analizzare e unire in modo efficiente set di dati geospaziali su vasta scala Implementare dati geospaziali in applicazioni di business intelligence e analisi predittiva Utilizzare il contesto spaziale per estendere le funzionalità di dispositivi mobili, sensori, registri e dispositivi indossabili Pubblico Sviluppatori di applicazioni Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
hdpHortonworks Data Platform (HDP) for Administrators21 oreHortonworks Data Platform è una piattaforma di supporto opensource Apache Hadoop che fornisce una base stabile per lo sviluppo di soluzioni di big data nell'ecosistema di Apache Hadoop Questo corso di formazione dal vivo con istruttore introduce Hortonworks e accompagna i partecipanti attraverso l'implementazione della soluzione Spark + Hadoop Alla fine di questa formazione, i partecipanti saranno in grado di: Utilizzare Hortonworks per eseguire in modo affidabile Hadoop su larga scala Unifica le funzionalità di sicurezza, governance e operazioni di Hadoop con i flussi di lavoro analitici agili di Spark Utilizzare Hortonworks per indagare, convalidare, certificare e supportare ciascuno dei componenti di un progetto Spark Elabora diversi tipi di dati, inclusi strutturati, non strutturati, inmotion e atrest Pubblico Amministratori Hadoop Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
PentahoDIPentaho Data Integration Fundamentals21 orePentaho Data Integration è uno strumento di integrazione dei dati opensource per la definizione di processi e trasformazioni di dati In questo corso di formazione dal vivo con istruttore, i partecipanti impareranno come utilizzare le potenti capacità ETL di Pentaho Data Integration e la ricca interfaccia grafica per gestire un intero ciclo di vita dei big data, massimizzando il valore dei dati per l'organizzazione Alla fine di questa formazione, i partecipanti saranno in grado di: Crea, visualizza in anteprima ed esegui trasformazioni di dati di base contenenti passaggi e hop Configura e proteggi il Pentaho Enterprise Repository Sfrutta fonti di dati eterogenee e genera una versione unica e unificata della verità in formato analitico già Fornire risultati a applicazioni di terze parti per ulteriori elaborazioni Pubblico Analista dati Sviluppatori ETL Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
bigdatabicriminalBig Data Business Intelligence for Criminal Intelligence Analysis35 oreI progressi delle tecnologie e la crescente quantità di informazioni stanno trasformando il modo in cui vengono condotte le forze dell'ordine Le sfide poste dai Big Data sono quasi scoraggianti quanto le promesse di Big Data Memorizzare i dati in modo efficiente è una di queste sfide; analizzarlo efficacemente è un altro In questo corso di formazione dal vivo istruito, i partecipanti apprenderanno la mentalità con cui affrontare le tecnologie dei Big Data, valutare il loro impatto sui processi e le politiche esistenti e implementare queste tecnologie allo scopo di identificare l'attività criminale e prevenire il crimine Verranno esaminati casi di studio da organizzazioni di polizia di tutto il mondo per ottenere informazioni sugli approcci, le sfide e i risultati di adozione Alla fine di questa formazione, i partecipanti saranno in grado di: Combina la tecnologia Big Data con i tradizionali processi di raccolta dei dati per ricostruire una storia durante un'indagine Implementare soluzioni di archiviazione e elaborazione di big data industriali per l'analisi dei dati Preparare una proposta per l'adozione degli strumenti e dei processi più adeguati per consentire un approccio basato sui dati alle indagini criminali Pubblico Specialisti di Law Enforcement con un background tecnico Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
hadooppythonHadoop with Python28 oreHadoop è un famoso framework per l'elaborazione di Big Data Python è un linguaggio di programmazione di alto livello famoso per la sua chiara sintassi e leggibilità del codice In questo corso di formazione dal vivo, istruito, i partecipanti impareranno come lavorare con Hadoop, MapReduce, Pig e Spark usando Python mentre passano attraverso più esempi e casi d'uso Alla fine di questa formazione, i partecipanti saranno in grado di: Comprendi i concetti di base di Hadoop, MapReduce, Pig e Spark Usa Python con Hadoop Distributed File System (HDFS), MapReduce, Pig e Spark Usa Snakebite per accedere a livello di codice HDFS in Python Usa mrjob per scrivere lavori MapReduce in Python Scrivi programmi Spark con Python Estendi le funzionalità di pig usando le UDF di Python Gestisci i lavori MapReduce e gli script Pig usando Luigi Pubblico Sviluppatori Professionisti IT Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
kylinApache Kylin: From Classic OLAP to Real-Time Data Warehouse14 oreApache Kylin è un motore di analisi estremo e distribuito per i big data In questo corso di formazione dal vivo con istruttore, i partecipanti impareranno come utilizzare Apache Kylin per creare un data warehouse in tempo reale Alla fine di questa formazione, i partecipanti saranno in grado di: Consuma dati streaming in tempo reale usando Kylin Utilizza le potenti funzionalità di Apache Kylin, tra cui il supporto degli schemi a fiocco di neve, un'interfaccia SQL ricca, una scintilla di cubatura e una latenza di query di sottoscala Nota Usiamo l'ultima versione di Kylin (al momento in cui scrivo, Apache Kylin v20) Pubblico Grandi ingegneri di dati Analisti di Big Data Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva .
sparksqlApache Spark SQL7 oreSpark SQL è il modulo di Apache Spark per lavorare con dati strutturati e non strutturati Spark SQL fornisce informazioni sulla struttura dei dati e sul calcolo eseguito Questa informazione può essere utilizzata per eseguire ottimizzazioni Due usi comuni di Spark SQL sono: per eseguire query SQL leggere i dati da un'installazione Hive esistente In questo corso di formazione dal vivo con istruttore (in loco o remoto), i partecipanti impareranno come analizzare vari tipi di set di dati utilizzando Spark SQL Alla fine di questa formazione, i partecipanti saranno in grado di: Installa e configura Spark SQL Eseguire analisi dei dati usando Spark SQL Interroga i set di dati in diversi formati Visualizza dati e risultati delle query Pubblico Analisti di dati Scienziati di dati Ingegneri dei dati Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva Gli appunti Per richiedere una formazione personalizzata per questo corso, vi preghiamo di contattarci per organizzare .
sparkcloudApache Spark in the Cloud21 oreApache Spark's learning curve is slowly increasing at the begining, it needs a lot of effort to get the first return. This course aims to jump through the first tough part. After taking this course the participants will understand the basics of Apache Spark , they will clearly differentiate RDD from DataFrame, they will learn Python and Scala API, they will understand executors and tasks, etc. Also following the best practices, this course strongly focuses on cloud deployment, Databricks and AWS. The students will also understand the differences between AWS EMR and AWS Glue, one of the lastest Spark service of AWS.

AUDIENCE:

Data Engineer, DevOps, Data Scientist
bigdataanahealthBig Data Analytics in Health21 oreL'analisi dei big data comporta il processo di esaminare grandi quantità di set di dati diversi al fine di scoprire correlazioni, schemi nascosti e altre utili informazioni L'industria della salute ha enormi quantità di dati medici e clinici eterogenei complessi L'applicazione dell'analisi dei big data sui dati sanitari presenta un enorme potenziale nel derivare intuizioni per migliorare l'erogazione dell'assistenza sanitaria Tuttavia, l'enormità di questi set di dati pone grandi sfide nelle analisi e nelle applicazioni pratiche in un ambiente clinico In questo corso di formazione dal vivo con istruttore (a distanza), i partecipanti impareranno come eseguire analisi dei big data in salute mentre eseguono una serie di esercizi di livelab Alla fine di questa formazione, i partecipanti saranno in grado di: Installa e configura strumenti di analisi dei big data come Hadoop MapReduce e Spark Comprendere le caratteristiche dei dati medici Applicare tecniche di big data per gestire i dati medici Studio di sistemi e algoritmi di big data nel contesto delle applicazioni sanitarie Pubblico Sviluppatori Scienziati di dati Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva Nota Per richiedere una formazione personalizzata per questo corso, vi preghiamo di contattarci per organizzare .
arrowApache Arrow for Data Analysis across Disparate Data Sources14 oreApache Arrow è un framework di elaborazione dati inmemorabile opensource Viene spesso utilizzato insieme ad altri strumenti di scienza dei dati per accedere a diversi archivi di dati per l'analisi Si integra bene con altre tecnologie come database GPU, librerie e strumenti di apprendimento automatico, motori di esecuzione e framework di visualizzazione dei dati In questo corso di formazione in diretta con istruttore, i partecipanti impareranno ad integrare Apache Arrow con vari framework Data Science per accedere ai dati da fonti di dati disparate Alla fine di questa formazione, i partecipanti saranno in grado di: Installa e configura Apache Arrow in un ambiente distribuito in cluster Utilizzare Apache Arrow per accedere ai dati da diverse fonti di dati Usa Apache Arrow per bypassare la necessità di costruire e mantenere pipeline ETL complesse Analizza i dati su diverse fonti di dati senza doverli consolidare in un repository centralizzato Pubblico Scienziati di dati Ingegneri dei dati Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva Nota Per richiedere una formazione personalizzata per questo corso, vi preghiamo di contattarci per organizzare .
sqoopMoving Data from MySQL to Hadoop with Sqoop14 oreSqoop è uno strumento software open source per il trasferimento di dati tra Hadoop e database relazionali o mainframe Può essere utilizzato per importare dati da un sistema di gestione di database relazionali (RDBMS) come MySQL o Oracle o un mainframe nel file system distribuito Hadoop (HDFS) Successivamente, i dati possono essere trasformati in Hadoop MapReduce e quindi riesportati nuovamente in un RDBMS In questo corso di formazione dal vivo con istruttore, i partecipanti impareranno come usare Sqoop per importare i dati da un database relazionale tradizionale ad Hadoop come HDFS o Hive e viceversa Alla fine di questa formazione, i partecipanti saranno in grado di: Installa e configura Sqoop Importa i dati da MySQL a HDFS e Hive Importa i dati da HDFS e Hive su MySQL Pubblico Amministratori di sistema Ingegneri dei dati Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva Nota Per richiedere una formazione personalizzata per questo corso, vi preghiamo di contattarci per organizzare .
beamUnified Batch and Stream Processing with Apache Beam14 oreApache Beam è un modello di programmazione unificata open source per la definizione e l'esecuzione di pipeline di elaborazione dati parallele Il suo potere risiede nella sua capacità di eseguire pipeline sia in batch che in streaming, con l'esecuzione eseguita da uno dei backend di elaborazione distribuiti supportati da Beam: Apache Apex, Apache Flink, Apache Spark e Google Cloud Dataflow Apache Beam è utile per le attività ETL (Estrai, Trasforma e Carica) come lo spostamento di dati tra diversi supporti di memorizzazione e origini dati, la trasformazione dei dati in un formato più desiderabile e il caricamento dei dati su un nuovo sistema In questo corso di formazione dal vivo con istruttore (in loco o remoto), i partecipanti impareranno come implementare gli SDK Apache Beam in un'applicazione Java o Python che definisce una pipeline di elaborazione dati per la decomposizione di un big data set in blocchi più piccoli per l'elaborazione parallela indipendente Alla fine di questa formazione, i partecipanti saranno in grado di: Installa e configura Apache Beam Utilizzare un singolo modello di programmazione per eseguire sia l'elaborazione batch che quella stream dall'applicazione Java o Python Esegui pipeline su più ambienti Pubblico Sviluppatori Formato del corso Lezione di parte, discussione parziale, esercitazioni e pratica intensiva Nota Questo corso sarà disponibile in futuro Vi preghiamo di contattarci per organizzare .

Prossimi corsi Big Data

CorsoCourse DatePrezzo del corso [A distanza / In classe]
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP - NapoliMer, 2019-01-09 09:305250EUR / 6050EUR
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP - GenovaMer, 2019-01-16 09:305250EUR / 6050EUR
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP - RomaMer, 2019-01-16 09:305250EUR / 6050EUR
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP - BolognaLun, 2019-02-04 09:305250EUR / 6050EUR
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP - TorinoMar, 2019-02-05 09:305250EUR / 6050EUR
Fine settimana Big Data corsi, Sera Big Data training, Big Data centro di addestramento, Big Data con istruttore, Fine settimana Big Data training, Sera Big Data corsi, Big Data coaching, Big Data istruttore, Big Data trainer, Big Data corsi di formazione, Big Data classi, Big Data in loco, Big Data corsi privati, Big Data training individuale

Corsi scontati

CorsoSedeCourse DatePrezzo del corso [A distanza / In classe]
OCEB2 OMG Certified Expert in BPM - Fundamental Exam PreparationMilanoLun, 2018-12-17 09:306300EUR / 7300EUR
Docker and KubernetesRomaMer, 2019-01-16 09:304455EUR / 5255EUR
Advanced C#, ASP.NET and Web Application SecurityRomaMer, 2019-03-13 09:305250EUR / 6050EUR
Natural Language Processing - AI/RoboticsBolognaLun, 2019-06-10 09:304725EUR / 5525EUR
Big Data - Data ScienceGenovaGio, 2019-07-04 09:303500EUR / 4100EUR

Newsletter per ricevere sconti sui corsi

Rispettiamo la privacy di ogni indirizzo mail. Non diffonderemo,né venderemo assolutamente nessun indirizzo mail a terzi. Inserire prego il proprio indirizzo mail. E' possibile sempre cambiare le impostazioni o cancellarsi completamente.

I nostri clienti

is growing fast!

We are looking to expand our presence in Italy!

As a Business Development Manager you will:

  • expand business in Italy
  • recruit local talent (sales, agents, trainers, consultants)
  • recruit local trainers and consultants

We offer:

  • Artificial Intelligence and Big Data systems to support your local operation
  • high-tech automation
  • continuously upgraded course catalogue and content
  • good fun in international team

If you are interested in running a high-tech, high-quality training and consulting business.

Apply now!