Corso di formazione SMACK Stack for Data Science
SMACK è una raccolta di software per la piattaforma dati, cioè Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, e Apache Kafka. Utilizzando la scheda SMACK, gli utenti possono creare e scalare piattaforme di elaborazione dei dati.
Questo allenamento diretto da istruttori, in diretta (online o on-site) è rivolto a scienziati dei dati che vogliono utilizzare la stack SMACK per costruire piattaforme di elaborazione dei dati per soluzioni di big data.
Al termine di questo corso, i partecipanti saranno in grado di:
- Implementazione di un'architettura del pipeline dei dati per il trattamento dei big data.
- Sviluppare un'infrastruttura di cluster con Apache Mesos e Docker.
- Analisi dei dati con Spark e Scala.
- Gestire i dati non strutturati con Apache Cassandra.
Il formato del corso
- Interattiva lezione e discussione.
- Molti esercizi e pratiche.
- Implementazione a mano in un ambiente live-lab.
Opzioni di personalizzazione del corso
- Per richiedere una formazione personalizzata per questo corso, si prega di contattarci per organizzare.
Struttura del corso
Introduzione
Panoramica dello stack SMACK
- Che cos'è Apache Spark? Funzionalità di Apache Spark
- Che cos'è Apache Mesos? Funzionalità di Apache Mesos
- Che cos'è Apache Akka? Funzionalità di Apache Akka
- Che cos'è Apache Cassandra? Caratteristiche di Apache Cassandra
- Cos'è Apache Kafka? Funzionalità di Apache Kafka
Scala Lingua
- Scala Sintassi e struttura
- Scala Flusso di controllo
Preparazione dell'ambiente di sviluppo
- Installazione e configurazione dello stack SMACK
- Installazione e configurazione Docker
Apache Akka
- Utilizzo degli attori
Apache Cassandra
- Creazione di un database per le operazioni di lettura
- Utilizzo di backup e ripristino
Connettori
- Creazione di un flusso
- Creazione di un'applicazione Akka
- Memorizzazione dei dati con Cassandra
- Revisione dei connettori
Apache Kafka
- Utilizzo dei cluster
- Creazione, pubblicazione e utilizzo di messaggi
Apache Mesos
- Allocazione delle risorse
- Esecuzione di cluster
- Utilizzo di Apache Aurora e Docker
- Esecuzione di servizi e processi
- Distribuzione di Spark, Cassandra e Kafka su Mesos
Apache Spark
- Gestione dei flussi di dati
- Utilizzo di RDD e frame di dati
- Esecuzione dell'analisi dei dati
Risoluzione dei problemi
- Gestione degli errori e degli errori dei servizi
Riassunto e conclusione
Requisiti
- Comprensione dei sistemi di elaborazione dei dati
Pubblico
- Scienziati dei dati
I corsi di formazione pubblici richiedono più di 5 partecipanti.
Corso di formazione SMACK Stack for Data Science - Booking
Corso di formazione SMACK Stack for Data Science - Enquiry
SMACK Stack for Data Science - Richiesta di consulenza
Richiesta di consulenza
Recensioni (1)
very interactive...
Richard Langford
Corso - SMACK Stack for Data Science
Corsi in Arrivo
Corsi relativi
Kaggle
14 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto a data scientist e sviluppatori che desiderano apprendere e costruire la propria carriera in Data Science utilizzando Kaggle.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Scopri di più sulla scienza dei dati e sull'apprendimento automatico.
- Esplora l'analisi dei dati.
- Scopri di più su Kaggle e su come funziona.
Accelerating Python Pandas Workflows with Modin
14 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto a data scientist e sviluppatori che desiderano utilizzare Modin per creare e implementare calcoli paralleli con Pandas per un'analisi più rapida dei dati.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Configura l'ambiente necessario per iniziare a sviluppare Pandas flussi di lavoro su larga scala con Modin.
- Comprendere le caratteristiche, l'architettura e i vantaggi di Modin.
- Conosci le differenze tra Modin, Dask e Ray.
- Esegui Pandas operazioni più velocemente con Modin.
- Implementa l'intera API e le funzioni Pandas.
GPU Data Science with NVIDIA RAPIDS
14 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto a data scientist e sviluppatori che desiderano utilizzare RAPIDS per creare pipeline di dati, flussi di lavoro e visualizzazioni accelerate da GPU, applicando algoritmi di apprendimento automatico, come XGBoost, cuML, ecc.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Impostare l'ambiente di sviluppo necessario per costruire modelli di dati con NVIDIA RAPIDS.
- Comprendere le caratteristiche, i componenti e i vantaggi di RAPIDS.
- Sfrutta GPU per accelerare le pipeline di dati e analisi end-to-end.
- Implementare la preparazione dei dati accelerata GPU e l'ETL con cuDF e Apache Arrow.
- Scopri come eseguire attività di machine learning con gli algoritmi XGBoost e cuML.
- Crea visualizzazioni di dati ed esegui analisi grafiche con cuXfilter e cuGraph.
Anaconda Ecosystem for Data Scientists
14 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto ai data scientist che desiderano utilizzare l'ecosistema Anaconda per acquisire, gestire e distribuire pacchetti e flussi di lavoro di analisi dei dati in un'unica piattaforma.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Installare e configurare Anaconda componenti e librerie.
- Comprendere i concetti fondamentali, le caratteristiche e i vantaggi di Anaconda.
- Gestisci pacchetti, ambienti e canali utilizzando Anaconda Navigator.
- Usa i pacchetti Conda, R e Python per l'analisi scientifica dei dati e l'apprendimento automatico.
- Scopri alcuni casi d'uso pratici e tecniche per la gestione di più ambienti di dati.
Python and Spark for Big Data (PySpark)
21 oreIn questo corso di formazione dal vivo con istruttore in Italia, i partecipanti impareranno come utilizzare Python e Spark insieme per analizzare i big data mentre lavorano su esercizi pratici.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Scopri come utilizzare Spark con Python per analizzare Big Data.
- Lavora su esercizi che imitano casi del mondo reale.
- Utilizzare diversi strumenti e tecniche per l'analisi dei big data utilizzando PySpark.
Introduction to Graph Computing
28 oreIn questo corso di formazione dal vivo con istruttore in Italia, i partecipanti impareranno a conoscere le offerte tecnologiche e gli approcci di implementazione per l'elaborazione dei dati grafici. L'obiettivo è identificare gli oggetti del mondo reale, le loro caratteristiche e relazioni, quindi modellare queste relazioni ed elaborarle come dati utilizzando un approccio Graph Computing (noto anche come Graph Analitica). Iniziamo con un'ampia panoramica e ci concentriamo su strumenti specifici mentre esaminiamo una serie di casi di studio, esercizi pratici e implementazioni dal vivo.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Informazioni sul modo in cui i dati del grafo vengono salvati in modo permanente e attraversati.
- Selezionare il framework migliore per una determinata attività (dai database a grafo ai framework di elaborazione batch).
- Implementa Hadoop, Spark, GraphX e Pregel per eseguire il calcolo dei grafi su molte macchine in parallelo.
- Visualizza i problemi reali dei big data in termini di grafici, processi e attraversamenti.
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 oreQuesto corso è destinato a sviluppatori e data scientist che desiderano comprendere e implementare l'intelligenza artificiale nelle loro applicazioni. Particolare attenzione è rivolta all'analitica dei dati, all'intelligenza artificiale distribuita e all'elaborazione del linguaggio naturale.
Apache Spark MLlib
35 oreMLlib è la libreria di machine learning (ML) di Spark. Il suo obiettivo è rendere l'apprendimento automatico pratico scalabile e facile. Comprende algoritmi e utilità di apprendimento comuni, tra cui classificazione, regressione, clustering, filtro collaborativo, riduzione della dimensionalità, nonché primitive di ottimizzazione di livello inferiore e API di pipeline di livello superiore.
Si divide in due pacchetti:
spark.mllib contiene l'API originale basata su RDD.
spark.ml fornisce API di livello superiore basate su DataFrames per la costruzione di pipeline ML.
Pubblico
Questo corso è rivolto a ingegneri e sviluppatori che desiderano utilizzare una libreria di macchine integrata per Apache Spark
Introduction to Data Science and AI using Python
35 oreQuesto è un introduttivo di 5 giorni a Data Science e AI.
Il corso viene fornito con esempi ed esercizi con Python
Apache Airflow for Data Science: Automating Machine Learning Pipelines
21 oreQuesta formazione dal vivo con istruttore in Italia (online o in loco) è rivolta a partecipanti di livello intermedio che desiderano automatizzare e gestire i flussi di lavoro di apprendimento automatico, tra cui l'addestramento, la convalida e l'implementazione del modello utilizzando Apache Airflow.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Configurare Apache Airflow per l'orchestrazione del flusso di lavoro di machine learning.
- Automatizza le attività di pre-elaborazione dei dati, addestramento dei modelli e convalida.
- Integra Airflow con framework e strumenti di machine learning.
- Distribuisci modelli di machine learning usando pipeline automatizzate.
- Monitora e ottimizza i flussi di lavoro di machine learning in produzione.
AWS Cloud9 for Data Science
28 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto a data scientist e analisti di livello intermedio che desiderano utilizzare AWS Cloud9 per flussi di lavoro semplificati di data science.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Configura un ambiente di data science in AWS Cloud9.
- Esegui l'analisi dei dati utilizzando Python, R e Jupyter Notebook in Cloud9.
- Integra AWS Cloud9 con i servizi dati AWS come S3, RDS e Redshift.
- Utilizza AWS Cloud9 per lo sviluppo e la distribuzione di modelli di machine learning.
- Ottimizza i flussi di lavoro basati su cloud per l'analisi e l'elaborazione dei dati.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 oredi Overview
I fornitori di servizi (CSP) sono sotto pressione per ridurre i costi e massimizzare il reddito medio per utente (ARPU), assicurando al contempo un'ottima esperienza clienti, ma i volumi dei dati continuano a crescere. Il traffico globale dei dati mobili crescerà a un tasso di crescita annuale combinato (CAGR) del 78 per cento entro il 2016, raggiungendo 10,8 exabiti al mese.
Nel frattempo, i CSP generano grandi volumi di dati, tra cui registri dettagliati delle chiamate (CDR), dati di rete e dati dei clienti. Le aziende che sfruttano pienamente questi dati guadagnano un margine competitivo. Secondo un recente sondaggio di The Economist Intelligence Unit, le aziende che utilizzano la presa di decisioni basate sui dati godono di un aumento della produttività del 5-6%. Tuttavia, il 53% delle aziende utilizza solo la metà dei loro dati preziosi, e un quarto degli intervistati ha notato che enormi quantità di dati utili non sono stati utilizzati. I volumi dei dati sono così alti che l'analisi manuale è impossibile, e la maggior parte dei sistemi software ereditari non può mantenere, il che porta a dati preziosi che vengono rimossi o ignorati.
Con Big Data & Analytics’ software di big data ad alta velocità, scalabile, i CSP possono minare tutti i loro dati per una migliore presa di decisioni in meno tempo. Diversi prodotti e tecniche forniscono una piattaforma software end-to-end per la raccolta, la preparazione, l'analisi e la presentazione di insegnamenti provenienti da grandi dati. Le aree di applicazione includono il monitoraggio del rendimento della rete, la rilevazione della frode, la rilevazione del cliente e l'analisi del rischio di credito. Big Data & Scala dei prodotti di analisi per gestire terabiti di dati ma l'implementazione di tali strumenti richiede un nuovo tipo di sistema di database basato sul cloud come Hadoop o processore di computer parallelo di scala massiccia (KPU, ecc.)
Questo corso funziona su Big Data BI per Telco copre tutte le nuove aree emergenti in cui i CSP stanno investendo per aumentare la produttività e aprire nuovi flussi di reddito aziendale. Il corso fornirà una panoramica completa di 360 gradi di Big Data BI in Telco in modo che i decisori e i manager possano avere una panoramica molto ampia e completa delle possibilità di Big Data BI in Telco per la produttività e il guadagno delle entrate.
Obiettivi corsi
L'obiettivo principale del corso è quello di introdurre nuove Big Data tecniche di intelligenza aziendale in 4 settori di Telecom Business (Marketing/Vendite, Operazione di rete, Operazione finanziaria e Relazioni con i clienti Management). Gli studenti saranno invitati a seguire:
- Introduzione a Big Data-che è 4Vs (volume, velocità, varietà e veracità) in Big Data- Generazione, estrazione e gestione dalla prospettiva Telco
- Come Big Data l'analisi differisce dall'analisi dei dati di eredità
- In-house giustificazione di Big Data -Telco prospettiva
- Introduzione a Hadoop Ecosistema- familiarità con tutti gli strumenti Hadoop come Hive, Pig, SPARC –quando e come vengono utilizzati per risolvere il problema Big Data
- Come Big Data viene estratto per l'analisi per lo strumento di analisi-come Business Analysis’s può ridurre i loro punti di dolore di raccolta e analisi dei dati attraverso un approccio integrato Hadoop dashboard
- Introduzione di base all'analisi di Insight, all'analisi di visualizzazione e all'analisi preditiva per Telco
- L'analisi del cliente Churn e Big Data-how Big Data analisi possono ridurre il timore del cliente e l'insoddisfazione del cliente negli studi del caso Telco
- Analisi di fallimenti di rete e fallimenti di servizio da metadati di rete e IPDR
- Analisi finanziaria - frode, scorta e stima del ROI dalle vendite e dai dati operativi
- Problemi di acquisizione dei clienti-Marketing target, segmentazione dei clienti e cross-sales dai dati di vendita
- Introduzione e sintesi di tutti i Big Data prodotti analitici e dove si adattano allo spazio analistico di Telco
- Conclusione-come prendere un approccio passo dopo passo per introdurre Big Data Business Intelligence nella tua organizzazione
Pubblicità target
- Operazioni di rete, Manageri finanziari, manageri CRM e top IT manageri presso l'ufficio Telco CIO.
- Business Gli analisti di Telco
- Direttori/analisti di CFO
- Direttori operativi
- Direttore QA
Introduction to Google Colab for Data Science
14 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto a data scientist di livello principiante e professionisti IT che desiderano apprendere le basi della scienza dei dati utilizzando Google Colab.
Al termine di questa formazione, i partecipanti saranno in grado di:
- Configura e naviga Google Colab.
- Scrivere ed eseguire codice di base Python.
- Importare e gestire i set di dati.
- Creare visualizzazioni utilizzando le librerie Python.
A Practical Introduction to Data Science
35 oreI partecipanti che completano questa formazione acquisiranno una comprensione pratica e reale di Data Science e delle relative tecnologie, metodologie e strumenti.
I partecipanti avranno l'opportunità di mettere in pratica queste conoscenze attraverso esercizi pratici. L'interazione di gruppo e il feedback dell'istruttore costituiscono una componente importante della classe.
Il corso inizia con un'introduzione ai concetti elementari di Data Science, quindi progredisce negli strumenti e nelle metodologie utilizzate in Data Science.
Pubblico
- Gli sviluppatori
- Analisti tecnici
- Consulenti informatici
Formato del corso
- In parte lezione, in parte discussione, esercizi e pratica pratica pesante
Nota
- Per richiedere una formazione personalizzata per questo corso, contattateci per l'organizzazione.
Data Science for Big Data Analytics
35 oreI big data sono insiemi di dati così voluminosi e complessi che i tradizionali software applicativi per l'elaborazione dei dati non sono adeguati per gestirli. Le sfide relative ai big data comprendono l'acquisizione di dati, l'archiviazione dei dati, l'analisi dei dati, la ricerca, la condivisione, il trasferimento, la visualizzazione, l'interrogazione, l'aggiornamento e la riservatezza delle informazioni.