Corso di formazione SMACK Stack for Data Science
SMACK è una raccolta di software per la piattaforma dati, cioè Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, e Apache Kafka. Utilizzando la scheda SMACK, gli utenti possono creare e scalare piattaforme di elaborazione dei dati.
Questo allenamento diretto da istruttori, in diretta (online o on-site) è rivolto a scienziati dei dati che vogliono utilizzare la stack SMACK per costruire piattaforme di elaborazione dei dati per soluzioni di big data.
Al termine di questo corso, i partecipanti saranno in grado di:
- Implementazione di un'architettura del pipeline dei dati per il trattamento dei big data.
- Sviluppare un'infrastruttura di cluster con Apache Mesos e Docker.
- Analisi dei dati con Spark e Scala.
- Gestire i dati non strutturati con Apache Cassandra.
Il formato del corso
- Interattiva lezione e discussione.
- Molti esercizi e pratiche.
- Implementazione a mano in un ambiente live-lab.
Opzioni di personalizzazione del corso
- Per richiedere una formazione personalizzata per questo corso, si prega di contattarci per organizzare.
Struttura del corso
Introduzione
Panoramica dello stack SMACK
- Che cos'è Apache Spark? Funzionalità di Apache Spark
- Che cos'è Apache Mesos? Funzionalità di Apache Mesos
- Che cos'è Apache Akka? Funzionalità di Apache Akka
- Che cos'è Apache Cassandra? Caratteristiche di Apache Cassandra
- Cos'è Apache Kafka? Funzionalità di Apache Kafka
Scala Lingua
- Scala Sintassi e struttura
- Scala Flusso di controllo
Preparazione dell'ambiente di sviluppo
- Installazione e configurazione dello stack SMACK
- Installazione e configurazione Docker
Apache Akka
- Utilizzo degli attori
Apache Cassandra
- Creazione di un database per le operazioni di lettura
- Utilizzo di backup e ripristino
Connettori
- Creazione di un flusso
- Creazione di un'applicazione Akka
- Memorizzazione dei dati con Cassandra
- Revisione dei connettori
Apache Kafka
- Utilizzo dei cluster
- Creazione, pubblicazione e utilizzo di messaggi
Apache Mesos
- Allocazione delle risorse
- Esecuzione di cluster
- Utilizzo di Apache Aurora e Docker
- Esecuzione di servizi e processi
- Distribuzione di Spark, Cassandra e Kafka su Mesos
Apache Spark
- Gestione dei flussi di dati
- Utilizzo di RDD e frame di dati
- Esecuzione dell'analisi dei dati
Risoluzione dei problemi
- Gestione degli errori e degli errori dei servizi
Riassunto e conclusione
Requisiti
- Comprensione dei sistemi di elaborazione dei dati
Pubblico
- Scienziati dei dati
I corsi di formazione interaziendali richiedono più di 5 partecipanti.
Corso di formazione SMACK Stack for Data Science - Booking
Corso di formazione SMACK Stack for Data Science - Enquiry
SMACK Stack for Data Science - Richiesta di consulenza
Richiesta di consulenza
Recensioni (1)
very interactive...
Richard Langford
Corso - SMACK Stack for Data Science
Corsi in Arrivo
Corsi relativi
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 oreQuesto corso è destinato a sviluppatori e data scientist che desiderano comprendere e implementare l'intelligenza artificiale nelle loro applicazioni. Particolare attenzione è rivolta all'analitica dei dati, all'intelligenza artificiale distribuita e all'elaborazione del linguaggio naturale.
Anaconda Ecosystem for Data Scientists
14 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto ai data scientist che desiderano utilizzare l'ecosistema Anaconda per acquisire, gestire e distribuire pacchetti e flussi di lavoro di analisi dei dati in un'unica piattaforma.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Installare e configurare Anaconda componenti e librerie.
- Comprendere i concetti fondamentali, le caratteristiche e i vantaggi di Anaconda.
- Gestisci pacchetti, ambienti e canali utilizzando Anaconda Navigator.
- Usa i pacchetti Conda, R e Python per l'analisi scientifica dei dati e l'apprendimento automatico.
- Scopri alcuni casi d'uso pratici e tecniche per la gestione di più ambienti di dati.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 oredi Overview
I fornitori di servizi (CSP) sono sotto pressione per ridurre i costi e massimizzare il reddito medio per utente (ARPU), assicurando al contempo un'ottima esperienza clienti, ma i volumi dei dati continuano a crescere. Il traffico globale dei dati mobili crescerà a un tasso di crescita annuale combinato (CAGR) del 78 per cento entro il 2016, raggiungendo 10,8 exabiti al mese.
Nel frattempo, i CSP generano grandi volumi di dati, tra cui registri dettagliati delle chiamate (CDR), dati di rete e dati dei clienti. Le aziende che sfruttano pienamente questi dati guadagnano un margine competitivo. Secondo un recente sondaggio di The Economist Intelligence Unit, le aziende che utilizzano la presa di decisioni basate sui dati godono di un aumento della produttività del 5-6%. Tuttavia, il 53% delle aziende utilizza solo la metà dei loro dati preziosi, e un quarto degli intervistati ha notato che enormi quantità di dati utili non sono stati utilizzati. I volumi dei dati sono così alti che l'analisi manuale è impossibile, e la maggior parte dei sistemi software ereditari non può mantenere, il che porta a dati preziosi che vengono rimossi o ignorati.
Con Big Data & Analytics’ software di big data ad alta velocità, scalabile, i CSP possono minare tutti i loro dati per una migliore presa di decisioni in meno tempo. Diversi prodotti e tecniche forniscono una piattaforma software end-to-end per la raccolta, la preparazione, l'analisi e la presentazione di insegnamenti provenienti da grandi dati. Le aree di applicazione includono il monitoraggio del rendimento della rete, la rilevazione della frode, la rilevazione del cliente e l'analisi del rischio di credito. Big Data & Scala dei prodotti di analisi per gestire terabiti di dati ma l'implementazione di tali strumenti richiede un nuovo tipo di sistema di database basato sul cloud come Hadoop o processore di computer parallelo di scala massiccia (KPU, ecc.)
Questo corso funziona su Big Data BI per Telco copre tutte le nuove aree emergenti in cui i CSP stanno investendo per aumentare la produttività e aprire nuovi flussi di reddito aziendale. Il corso fornirà una panoramica completa di 360 gradi di Big Data BI in Telco in modo che i decisori e i manager possano avere una panoramica molto ampia e completa delle possibilità di Big Data BI in Telco per la produttività e il guadagno delle entrate.
Obiettivi corsi
L'obiettivo principale del corso è quello di introdurre nuove Big Data tecniche di intelligenza aziendale in 4 settori di Telecom Business (Marketing/Vendite, Operazione di rete, Operazione finanziaria e Relazioni con i clienti Management). Gli studenti saranno invitati a seguire:
- Introduzione a Big Data-che è 4Vs (volume, velocità, varietà e veracità) in Big Data- Generazione, estrazione e gestione dalla prospettiva Telco
- Come Big Data l'analisi differisce dall'analisi dei dati di eredità
- In-house giustificazione di Big Data -Telco prospettiva
- Introduzione a Hadoop Ecosistema- familiarità con tutti gli strumenti Hadoop come Hive, Pig, SPARC –quando e come vengono utilizzati per risolvere il problema Big Data
- Come Big Data viene estratto per l'analisi per lo strumento di analisi-come Business Analysis’s può ridurre i loro punti di dolore di raccolta e analisi dei dati attraverso un approccio integrato Hadoop dashboard
- Introduzione di base all'analisi di Insight, all'analisi di visualizzazione e all'analisi preditiva per Telco
- L'analisi del cliente Churn e Big Data-how Big Data analisi possono ridurre il timore del cliente e l'insoddisfazione del cliente negli studi del caso Telco
- Analisi di fallimenti di rete e fallimenti di servizio da metadati di rete e IPDR
- Analisi finanziaria - frode, scorta e stima del ROI dalle vendite e dai dati operativi
- Problemi di acquisizione dei clienti-Marketing target, segmentazione dei clienti e cross-sales dai dati di vendita
- Introduzione e sintesi di tutti i Big Data prodotti analitici e dove si adattano allo spazio analistico di Telco
- Conclusione-come prendere un approccio passo dopo passo per introdurre Big Data Business Intelligence nella tua organizzazione
Pubblicità target
- Operazioni di rete, Manageri finanziari, manageri CRM e top IT manageri presso l'ufficio Telco CIO.
- Business Gli analisti di Telco
- Direttori/analisti di CFO
- Direttori operativi
- Direttore QA
Data Science for Big Data Analytics
35 oreI big data sono insiemi di dati così voluminosi e complessi che i tradizionali software applicativi per l'elaborazione dei dati non sono adeguati per gestirli. Le sfide relative ai big data comprendono l'acquisizione di dati, l'archiviazione dei dati, l'analisi dei dati, la ricerca, la condivisione, il trasferimento, la visualizzazione, l'interrogazione, l'aggiornamento e la riservatezza delle informazioni.
Data Science essential for Marketing/Sales professionals
21 oreQuesto corso è destinato a Marketing professionisti delle vendite che intendono approfondire l'applicazione della scienza dei dati in Marketing/ Vendite. Il corso si propone di Copertura dettagliata delle diverse tecniche di data science utilizzate per "upsale", "cross-sale", segmentazione del mercato, branding e CLV.
Differenza tra Marketing e vendite - In che modo le vendite e il marketing sono diversi?
In parole molto semplici, le vendite possono essere definite come un processo che si concentra o si rivolge a individui o piccoli gruppi. Marketing D'altra parte, si rivolge a un gruppo più ampio o al pubblico in generale. Marketing comprende la ricerca (identificazione delle esigenze del cliente), lo sviluppo di prodotti (produzione di prodotti innovativi) e la promozione del prodotto (attraverso la pubblicità) e la creazione di consapevolezza del prodotto tra i consumatori. In quanto tale, fare marketing significa generare lead o potenziali clienti. Una volta che il prodotto è uscito sul mercato, è compito dell'addetto alle vendite persuadere il cliente ad acquistare il prodotto. Vendere significa convertire i lead o i potenziali clienti in acquisti e ordini, mentre il marketing è mirato a termini più lunghi, le vendite riguardano obiettivi più brevi.
Introduction to Graph Computing
28 oreIn questo corso di formazione dal vivo con istruttore in Italia, i partecipanti impareranno a conoscere le offerte tecnologiche e gli approcci di implementazione per l'elaborazione dei dati grafici. L'obiettivo è identificare gli oggetti del mondo reale, le loro caratteristiche e relazioni, quindi modellare queste relazioni ed elaborarle come dati utilizzando un approccio Graph Computing (noto anche come Graph Analitica). Iniziamo con un'ampia panoramica e ci concentriamo su strumenti specifici mentre esaminiamo una serie di casi di studio, esercizi pratici e implementazioni dal vivo.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Informazioni sul modo in cui i dati del grafo vengono salvati in modo permanente e attraversati.
- Selezionare il framework migliore per una determinata attività (dai database a grafo ai framework di elaborazione batch).
- Implementa Hadoop, Spark, GraphX e Pregel per eseguire il calcolo dei grafi su molte macchine in parallelo.
- Visualizza i problemi reali dei big data in termini di grafici, processi e attraversamenti.
Jupyter for Data Science Teams
7 oreThis instructor-led, live training in Italia (online or onsite) introduces the idea of collaborative development in data science and demonstrates how to use Jupyter to track and participate as a team in the "life cycle of a computational idea". It walks participants through the creation of a sample data science project based on top of the Jupyter ecosystem.
By the end of this training, participants will be able to:
- Install and configure Jupyter, including the creation and integration of a team repository on Git.
- Use Jupyter features such as extensions, interactive widgets, multiuser mode and more to enable project collaboraton.
- Create, share and organize Jupyter Notebooks with team members.
- Choose from Scala, Python, R, to write and execute code against big data systems such as Apache Spark, all through the Jupyter interface.
Kaggle
14 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto a data scientist e sviluppatori che desiderano apprendere e costruire la propria carriera in Data Science utilizzando Kaggle.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Scopri di più sulla scienza dei dati e sull'apprendimento automatico.
- Esplora l'analisi dei dati.
- Scopri di più su Kaggle e su come funziona.
MATLAB Fundamentals, Data Science & Report Generation
35 oreNella prima parte di questo corso di formazione, tratteremo i fondamenti di MATLAB e la sua funzione sia come linguaggio che come piattaforma. In questa discussione è inclusa un'introduzione alla sintassi MATLAB, agli array e alle matrici, alla visualizzazione dei dati, allo sviluppo di script e ai principi orientati agli oggetti.
Nella seconda parte, dimostriamo come utilizzare MATLAB per il data mining, l'apprendimento automatico e l'analisi predittiva. Per fornire ai partecipanti una prospettiva chiara e pratica dell'approccio e della potenza di MATLAB, facciamo confronti tra l'uso di MATLAB e l'uso di altri strumenti come fogli di calcolo, C, C++ e Visual Basic.
Nella terza parte della formazione, i partecipanti imparano come semplificare il loro lavoro automatizzando l'elaborazione dei dati e la generazione di report.
Durante il corso, i partecipanti metteranno in pratica le idee apprese attraverso esercizi pratici in un ambiente di laboratorio. Al termine della formazione, i partecipanti avranno una conoscenza approfondita delle capacità di MATLAB e saranno in grado di utilizzarle per risolvere problemi di scienza dei dati del mondo reale e per semplificare il loro lavoro attraverso l'automazione.
Durante il corso verranno condotte valutazioni per valutare i progressi.
Formato del corso
- Il corso include esercizi teorici e pratici, tra cui discussioni di casi, ispezione di codici di esempio e implementazione pratica.
Nota
- Le sessioni di pratica si baseranno su modelli di report di dati di esempio prestabiliti. Se avete esigenze specifiche, vi preghiamo di contattarci per organizzare.
Machine Learning for Data Science with Python
21 oreQuesto corso guidato dal formatore in Italia (online o presenza) è rivolto a analisti dei dati di livello intermedio, sviluppatori o aspiranti scienziati dei dati che desiderano applicare tecniche di apprendimento automatico in Python per estrarre indicazioni, fare previsioni ed automatizzare decisioni basate sui dati.
Al termine del corso, i partecipanti saranno in grado di:
- Comprendere e differenziare i principali paradigmi dell'apprendimento automatico.
- Esplorare tecniche di preprocessing dei dati e metriche di valutazione dei modelli.
- Applicare algoritmi di apprendimento automatico per risolvere problemi reali con i dati.
- Utilizzare le librerie Python e i notebook Jupyter per lo sviluppo pratico.
- Costruire modelli per la previsione, la classificazione, le raccomandazioni e il clustering.
Accelerating Python Pandas Workflows with Modin
14 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto a data scientist e sviluppatori che desiderano utilizzare Modin per creare e implementare calcoli paralleli con Pandas per un'analisi più rapida dei dati.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Configura l'ambiente necessario per iniziare a sviluppare Pandas flussi di lavoro su larga scala con Modin.
- Comprendere le caratteristiche, l'architettura e i vantaggi di Modin.
- Conosci le differenze tra Modin, Dask e Ray.
- Esegui Pandas operazioni più velocemente con Modin.
- Implementa l'intera API e le funzioni Pandas.
Python Programming for Finance
35 orePython è un linguaggio di programmazione che ha guadagnato un'enorme popolarità nel settore finanziario. Adottato dalle maggiori banche di investimento e hedge fund, viene utilizzato per costruire una vasta gamma di applicazioni finanziarie che vanno dai programmi di trading di base ai sistemi di gestione del rischio.
In questo corso di formazione dal vivo con istruttore, i partecipanti impareranno come utilizzare Python per sviluppare applicazioni pratiche per risolvere una serie di problemi finanziari specifici.
Al termine di questa formazione, i partecipanti saranno in grado di:
- Comprendere i fondamenti del linguaggio di programmazione Python
- Scaricare, installare e mantenere i migliori strumenti di sviluppo per la creazione di applicazioni finanziarie in Python
- Selezionare e utilizzare i pacchetti e le tecniche di programmazione Python più adatti per organizzare, visualizzare e analizzare dati finanziari provenienti da varie fonti (CSV, Excel, database, web, ecc.)
- Costruire applicazioni che risolvano problemi relativi all'allocazione degli asset, all'analisi del rischio, alla performance degli investimenti e altro ancora
- Risolvere problemi, integrare, distribuire e ottimizzare un'applicazione Python
Pubblico
- Sviluppatori
- Analisti
- Quantitativi
Formato del corso
- In parte lezione teorica, in parte discussione, esercizi e pratica intensiva
Nota
- Questo corso di formazione mira a fornire soluzioni ad alcuni dei principali problemi affrontati dai professionisti della finanza. Tuttavia, se hai un argomento, uno strumento o una tecnica particolare che desideri approfondire o elaborare ulteriormente, ti preghiamo di contattarci per organizzare.
GPU Data Science with NVIDIA RAPIDS
14 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto a data scientist e sviluppatori che desiderano utilizzare RAPIDS per creare pipeline di dati, flussi di lavoro e visualizzazioni accelerate da GPU, applicando algoritmi di apprendimento automatico, come XGBoost, cuML, ecc.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Impostare l'ambiente di sviluppo necessario per costruire modelli di dati con NVIDIA RAPIDS.
- Comprendere le caratteristiche, i componenti e i vantaggi di RAPIDS.
- Sfrutta GPU per accelerare le pipeline di dati e analisi end-to-end.
- Implementare la preparazione dei dati accelerata GPU e l'ETL con cuDF e Apache Arrow.
- Scopri come eseguire attività di machine learning con gli algoritmi XGBoost e cuML.
- Crea visualizzazioni di dati ed esegui analisi grafiche con cuXfilter e cuGraph.
Python and Spark for Big Data (PySpark)
21 oreIn questo corso di formazione dal vivo con istruttore in Italia, i partecipanti impareranno come utilizzare Python e Spark insieme per analizzare i big data mentre lavorano su esercizi pratici.
Al termine di questo corso di formazione, i partecipanti saranno in grado di:
- Scopri come utilizzare Spark con Python per analizzare Big Data.
- Lavora su esercizi che imitano casi del mondo reale.
- Utilizzare diversi strumenti e tecniche per l'analisi dei big data utilizzando PySpark.
Apache Spark MLlib
35 oreMLlib è la libreria di machine learning (ML) di Spark. Il suo obiettivo è rendere l'apprendimento automatico pratico scalabile e facile. Comprende algoritmi e utilità di apprendimento comuni, tra cui classificazione, regressione, clustering, filtro collaborativo, riduzione della dimensionalità, nonché primitive di ottimizzazione di livello inferiore e API di pipeline di livello superiore.
Si divide in due pacchetti:
spark.mllib contiene l'API originale basata su RDD.
spark.ml fornisce API di livello superiore basate su DataFrames per la costruzione di pipeline ML.
Pubblico
Questo corso è rivolto a ingegneri e sviluppatori che desiderano utilizzare una libreria di macchine integrata per Apache Spark