Corso di formazione SMACK Stack for Data Science
SMACK è una raccolta di software per la piattaforma dati, cioè Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, e Apache Kafka. Utilizzando la scheda SMACK, gli utenti possono creare e scalare piattaforme di elaborazione dei dati.
Questo allenamento diretto da istruttori, in diretta (online o on-site) è rivolto a scienziati dei dati che vogliono utilizzare la stack SMACK per costruire piattaforme di elaborazione dei dati per soluzioni di big data.
Al termine di questo corso, i partecipanti saranno in grado di:
- Implementazione di un'architettura del pipeline dei dati per il trattamento dei big data.
- Sviluppare un'infrastruttura di cluster con Apache Mesos e Docker.
- Analisi dei dati con Spark e Scala.
- Gestire i dati non strutturati con Apache Cassandra.
Il formato del corso
- Interattiva lezione e discussione.
- Molti esercizi e pratiche.
- Implementazione a mano in un ambiente live-lab.
Opzioni di personalizzazione del corso
- Per richiedere una formazione personalizzata per questo corso, si prega di contattarci per organizzare.
Struttura del corso
Introduzione
Panoramica dello stack SMACK
- Che cos'è Apache Spark? Funzionalità di Apache Spark
- Che cos'è Apache Mesos? Funzionalità di Apache Mesos
- Che cos'è Apache Akka? Funzionalità di Apache Akka
- Che cos'è Apache Cassandra? Caratteristiche di Apache Cassandra
- Cos'è Apache Kafka? Funzionalità di Apache Kafka
Scala Lingua
- Scala Sintassi e struttura
- Scala Flusso di controllo
Preparazione dell'ambiente di sviluppo
- Installazione e configurazione dello stack SMACK
- Installazione e configurazione Docker
Apache Akka
- Utilizzo degli attori
Apache Cassandra
- Creazione di un database per le operazioni di lettura
- Utilizzo di backup e ripristino
Connettori
- Creazione di un flusso
- Creazione di un'applicazione Akka
- Memorizzazione dei dati con Cassandra
- Revisione dei connettori
Apache Kafka
- Utilizzo dei cluster
- Creazione, pubblicazione e utilizzo di messaggi
Apache Mesos
- Allocazione delle risorse
- Esecuzione di cluster
- Utilizzo di Apache Aurora e Docker
- Esecuzione di servizi e processi
- Distribuzione di Spark, Cassandra e Kafka su Mesos
Apache Spark
- Gestione dei flussi di dati
- Utilizzo di RDD e frame di dati
- Esecuzione dell'analisi dei dati
Risoluzione dei problemi
- Gestione degli errori e degli errori dei servizi
Riassunto e conclusione
Requisiti
- Comprensione dei sistemi di elaborazione dei dati
Pubblico
- Scienziati dei dati
I corsi di formazione pubblici richiedono più di 5 partecipanti.
Corso di formazione SMACK Stack for Data Science - Booking
Corso di formazione SMACK Stack for Data Science - Richiedi Informazioni
SMACK Stack for Data Science - Richiesta di consulenza
Recensioni (1)
very interactive...
Richard Langford
Corso - SMACK Stack for Data Science
Corsi in Arrivo
Corsi relativi
Kaggle
14 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto a data scientist e sviluppatori che desiderano imparare e costruire la propria carriera nella scienza dei dati utilizzando Kaggle.
Al termine di questa formazione, i partecipanti saranno in grado di:
- Scopri di più sulla scienza dei dati e sull'apprendimento automatico.
- Esplora l'analisi dei dati.
- Scopri di più su Kaggle e su come funziona.
Accelerating Python Pandas Workflows with Modin
14 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto a data scientist e sviluppatori che desiderano utilizzare Modin per costruire e implementare calcoli paralleli con Pandas per un'analisi dei dati più rapida.
Al termine di questa formazione, i partecipanti saranno in grado di:
- Configura l'ambiente necessario per iniziare a sviluppare Pandas flussi di lavoro su larga scala con Modin.
- Comprendi le caratteristiche, l'architettura e i vantaggi di Modin.
- Conosci le differenze tra Modin, Dask e Ray.
- Esegui Pandas operazioni più velocemente con Modin.
- Implementare l'intera Pandas API e le funzioni.
GPU Data Science with NVIDIA RAPIDS
14 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto a data scientist e sviluppatori che desiderano utilizzare RAPIDS per creare pipeline di dati, flussi di lavoro e visualizzazioni accelerati da GPU, applicando algoritmi di apprendimento automatico, come XGBoost, cuML, ecc.
Al termine di questa formazione, i partecipanti saranno in grado di:
- Impostare l'ambiente di sviluppo necessario per costruire modelli di dati con NVIDIA RAPIDS.
- Comprendere le caratteristiche, i componenti e i vantaggi di RAPIDS.
- Sfrutta le GPU per accelerare le pipeline di dati e analisi end-to-end.
- Implementa la preparazione dei dati accelerata da GPU e l'ETL con cuDF e Apache Arrow.
- Scopri come eseguire attività di machine learning con gli algoritmi XGBoost e cuML.
- Crea visualizzazioni di dati ed esegui analisi grafiche con cuXfilter e cuGraph.
Anaconda Ecosystem for Data Scientists
14 oreQuesto corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto ai data scientist che desiderano utilizzare l'ecosistema Anaconda per acquisire, gestire e distribuire pacchetti e flussi di lavoro di analisi dei dati in un'unica piattaforma.
Al termine di questa formazione, i partecipanti saranno in grado di:
- Installare e configurare i componenti e le librerie Anaconda.
- Comprendi i concetti fondamentali, le caratteristiche e i vantaggi di Anaconda.
- Gestisci pacchetti, ambienti e canali utilizzando Anaconda Navigator.
- Usare i pacchetti Conda, R e Python per l'analisi scientifica dei dati e l'apprendimento automatico.
- Impara alcuni casi d'uso pratici e tecniche per la gestione di più ambienti di dati.
Python and Spark for Big Data (PySpark)
21 oreIn questo corso di formazione dal vivo con istruttore in Italia, i partecipanti impareranno a utilizzare Python e Spark insieme per analizzare i big data mentre lavorano su esercizi pratici.
Al termine di questa formazione, i partecipanti saranno in grado di:
- Informazioni su come usare Spark con Python per analizzare i Big Data.
- Lavora su esercizi che imitano casi del mondo reale.
- Usa diversi strumenti e tecniche per l'analisi dei big data usando PySpark.
Introduction to Graph Computing
28 oreIn questo corso di formazione dal vivo con istruttore in Italia, i partecipanti impareranno a conoscere le offerte tecnologiche e gli approcci di implementazione per l'elaborazione dei dati grafici. L'obiettivo è quello di identificare gli oggetti del mondo reale, le loro caratteristiche e relazioni, quindi modellare queste relazioni ed elaborarle come dati utilizzando un approccio Graph Computing (noto anche come Graph Analytics). Iniziamo con un'ampia panoramica e ci concentriamo su strumenti specifici mentre esaminiamo una serie di casi di studio, esercizi pratici e distribuzioni dal vivo.
Al termine di questa formazione, i partecipanti saranno in grado di:
- Comprendere il modo in cui i dati del grafico vengono salvati in modo permanente e attraversato.
- Selezionare il framework migliore per una determinata attività (dai database a grafo ai framework di elaborazione batch).
- Implementare Hadoop, Spark, GraphX e Pregel per eseguire il calcolo dei grafi su molte macchine in parallelo.
- Visualizza i problemi dei big data del mondo reale in termini di grafici, processi e attraversamenti.
Apache Spark MLlib
35 oreMLlib è la libreria di machine learning (ML) di Spark. Il suo obiettivo è rendere l'apprendimento automatico pratico scalabile e facile. Comprende algoritmi e utilità di apprendimento comuni, tra cui classificazione, regressione, clustering, filtro collaborativo, riduzione della dimensionalità, nonché primitive di ottimizzazione di livello inferiore e API di pipeline di livello superiore.
Si divide in due pacchetti:
spark.mllib contiene l'API originale basata su RDD.
spark.ml fornisce API di livello superiore basate su DataFrames per la costruzione di pipeline ML.
Pubblico
Questo corso è rivolto a ingegneri e sviluppatori che desiderano utilizzare una libreria di macchine integrata per Apache Spark
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 oreQuesto corso è destinato a sviluppatori e data scientist che desiderano comprendere e implementare l'intelligenza artificiale nelle loro applicazioni. Particolare attenzione è rivolta all'analisi dei dati, all'intelligenza artificiale distribuita e all'elaborazione del linguaggio naturale.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 oredi Overview
I fornitori di servizi (CSP) sono sotto pressione per ridurre i costi e massimizzare il reddito medio per utente (ARPU), assicurando al contempo un'ottima esperienza clienti, ma i volumi dei dati continuano a crescere. Il traffico globale dei dati mobili crescerà a un tasso di crescita annuale combinato (CAGR) del 78 per cento entro il 2016, raggiungendo 10,8 exabiti al mese.
Nel frattempo, i CSP generano grandi volumi di dati, tra cui registri dettagliati delle chiamate (CDR), dati di rete e dati dei clienti. Le aziende che sfruttano pienamente questi dati guadagnano un margine competitivo. Secondo un recente sondaggio di The Economist Intelligence Unit, le aziende che utilizzano la presa di decisioni basate sui dati godono di un aumento della produttività del 5-6%. Tuttavia, il 53% delle aziende utilizza solo la metà dei loro dati preziosi, e un quarto degli intervistati ha notato che enormi quantità di dati utili non sono stati utilizzati. I volumi dei dati sono così alti che l'analisi manuale è impossibile, e la maggior parte dei sistemi software ereditari non può mantenere, il che porta a dati preziosi che vengono rimossi o ignorati.
Con Big Data & Analytics’ software di big data ad alta velocità, scalabile, i CSP possono minare tutti i loro dati per una migliore presa di decisioni in meno tempo. Diversi prodotti e tecniche forniscono una piattaforma software end-to-end per la raccolta, la preparazione, l'analisi e la presentazione di insegnamenti provenienti da grandi dati. Le aree di applicazione includono il monitoraggio del rendimento della rete, la rilevazione della frode, la rilevazione del cliente e l'analisi del rischio di credito. Big Data & Scala dei prodotti di analisi per gestire terabiti di dati ma l'implementazione di tali strumenti richiede un nuovo tipo di sistema di database basato sul cloud come Hadoop o processore di computer parallelo di scala massiccia (KPU, ecc.)
Questo corso funziona su Big Data BI per Telco copre tutte le nuove aree emergenti in cui i CSP stanno investendo per aumentare la produttività e aprire nuovi flussi di reddito aziendale. Il corso fornirà una panoramica completa di 360 gradi di Big Data BI in Telco in modo che i decisori e i manager possano avere una panoramica molto ampia e completa delle possibilità di Big Data BI in Telco per la produttività e il guadagno delle entrate.
Obiettivi corsi
L'obiettivo principale del corso è quello di introdurre nuove Big Data tecniche di intelligenza aziendale in 4 settori di Telecom Business (Marketing/Vendite, Operazione di rete, Operazione finanziaria e Relazioni con i clienti Management). Gli studenti saranno invitati a seguire:
- Introduzione a Big Data-che è 4Vs (volume, velocità, varietà e veracità) in Big Data- Generazione, estrazione e gestione dalla prospettiva Telco
- Come Big Data l'analisi differisce dall'analisi dei dati di eredità
- In-house giustificazione di Big Data -Telco prospettiva
- Introduzione a Hadoop Ecosistema- familiarità con tutti gli strumenti Hadoop come Hive, Pig, SPARC –quando e come vengono utilizzati per risolvere il problema Big Data
- Come Big Data viene estratto per l'analisi per lo strumento di analisi-come Business Analysis’s può ridurre i loro punti di dolore di raccolta e analisi dei dati attraverso un approccio integrato Hadoop dashboard
- Introduzione di base all'analisi di Insight, all'analisi di visualizzazione e all'analisi preditiva per Telco
- L'analisi del cliente Churn e Big Data-how Big Data analisi possono ridurre il timore del cliente e l'insoddisfazione del cliente negli studi del caso Telco
- Analisi di fallimenti di rete e fallimenti di servizio da metadati di rete e IPDR
- Analisi finanziaria - frode, scorta e stima del ROI dalle vendite e dai dati operativi
- Problemi di acquisizione dei clienti-Marketing target, segmentazione dei clienti e cross-sales dai dati di vendita
- Introduzione e sintesi di tutti i Big Data prodotti analitici e dove si adattano allo spazio analistico di Telco
- Conclusione-come prendere un approccio passo dopo passo per introdurre Big Data Business Intelligence nella tua organizzazione
Pubblicità target
- Operazioni di rete, Manageri finanziari, manageri CRM e top IT manageri presso l'ufficio Telco CIO.
- Business Gli analisti di Telco
- Direttori/analisti di CFO
- Direttori operativi
- Direttore QA
Data Science for Big Data Analytics
35 oreI big data sono insiemi di dati così voluminosi e complessi che i tradizionali software applicativi per l'elaborazione dei dati non sono adeguati per gestirli. Le sfide relative ai big data comprendono l'acquisizione di dati, l'archiviazione dei dati, l'analisi dei dati, la ricerca, la condivisione, il trasferimento, la visualizzazione, l'interrogazione, l'aggiornamento e la riservatezza delle informazioni.
MATLAB Fundamentals, Data Science & Report Generation
35 oreNella prima parte di questo corso di formazione, tratteremo i fondamenti di MATLAB e la sua funzione sia come linguaggio che come piattaforma. In questa discussione è inclusa un'introduzione alla sintassi MATLAB, agli array e alle matrici, alla visualizzazione dei dati, allo sviluppo di script e ai principi orientati agli oggetti.
Nella seconda parte, dimostriamo come utilizzare MATLAB per il data mining, l'apprendimento automatico e l'analisi predittiva. Per fornire ai partecipanti una prospettiva chiara e pratica dell'approccio e della potenza di MATLAB, facciamo confronti tra l'uso di MATLAB e l'uso di altri strumenti come fogli di calcolo, C, C++ e Visual Basic.
Nella terza parte della formazione, i partecipanti imparano come semplificare il loro lavoro automatizzando l'elaborazione dei dati e la generazione di report.
Durante il corso, i partecipanti metteranno in pratica le idee apprese attraverso esercizi pratici in un ambiente di laboratorio. Al termine della formazione, i partecipanti avranno una conoscenza approfondita delle capacità di MATLAB e saranno in grado di utilizzarle per risolvere problemi di scienza dei dati del mondo reale e per semplificare il loro lavoro attraverso l'automazione.
Durante il corso verranno condotte valutazioni per valutare i progressi.
Formato del corso
- Il corso include esercizi teorici e pratici, tra cui discussioni di casi, ispezione di codici di esempio e implementazione pratica.
Nota
- Le sessioni di pratica si baseranno su modelli di report di dati di esempio prestabiliti. Se avete esigenze specifiche, vi preghiamo di contattarci per organizzare.
Jupyter for Data Science Teams
7 oreJupyter è un IDE interattivo open source basato sul Web e un ambiente informatico.
Questo corso di formazione dal vivo con istruttore (online o in loco) introduce l'idea di sviluppo collaborativo nella scienza dei dati e dimostra come utilizzare Jupyter per monitorare e partecipare come team al "ciclo di vita di un'idea computazionale". Guida i partecipanti attraverso la creazione di un progetto di data science di esempio basato sull'ecosistema Jupyter.
Al termine di questa formazione, i partecipanti saranno in grado di:
- Installa e configura Jupyter, inclusa la creazione e l'integrazione di un repository del team su Git.
- Usa le funzionalità di Jupyter come estensioni, widget interattivi, modalità multiutente e altro ancora per abilitare la collaborazione al progetto.
- Crea, condividi e organizza Jupyter Notebooks con i membri del team.
- Scegliere tra Scala, Python, R, per scrivere ed eseguire codice su sistemi di Big Data come Apache Spark, il tutto tramite l'interfaccia Jupyter.
Formato del corso
- Lezione interattiva e discussione.
- Un sacco di esercizi e pratica.
- Implementazione pratica in un ambiente di laboratorio dal vivo.
Opzioni di personalizzazione del corso
- Jupyter Notebook supporta oltre 40 lingue, tra cui R, Python, Scala, Julia e così via. Per personalizzare questo corso in base alla lingua o alle lingue di tua scelta, contattaci per organizzarlo.
F# for Data Science
21 orePython Programming for Finance
35 orePython è un linguaggio di programmazione che ha guadagnato un'enorme popolarità nel settore finanziario. Adottato dalle maggiori banche di investimento e hedge fund, viene utilizzato per costruire una vasta gamma di applicazioni finanziarie che vanno dai programmi di trading di base ai sistemi di gestione del rischio.
In questo corso di formazione dal vivo con istruttore, i partecipanti impareranno come utilizzare Python per sviluppare applicazioni pratiche per risolvere una serie di problemi finanziari specifici.
Al termine di questa formazione, i partecipanti saranno in grado di:
- Comprendi i fondamenti del Python programmazione Python
- Scarica, installa e gestisci i migliori strumenti di sviluppo per la creazione di applicazioni finanziarie in Python
- Seleziona e utilizza i pacchetti e le tecniche di programmazione Python più adatti per organizzare, visualizzare e analizzare i dati finanziari da varie fonti (CSV, Excel , database, web, ecc.)
- Costruisci applicazioni che risolvano problemi relativi all'allocazione degli asset, all'analisi dei rischi, alla performance degli investimenti e altro
- Risolvi i problemi, integra, distribuisci e ottimizza un'applicazione Python
Pubblico
- Sviluppatori
- Gli analisti
- quants
Formato del corso
- Parte lezione, parte discussione, esercitazioni e esercitazioni pratiche
Nota
- Questa formazione mira a fornire soluzioni ad alcuni dei principali problemi affrontati dai professionisti della finanza. Tuttavia, se si dispone di un particolare argomento, strumento o tecnica che si desidera aggiungere o elaborare ulteriormente, si prega di contattarci per organizzare.
Data Science essential for Marketing/Sales professionals
21 oreQuesto corso è destinato a Marketing professionisti delle vendite che intendono approfondire l'applicazione della scienza dei dati in Marketing/ Vendite. Il corso si propone di Copertura dettagliata delle diverse tecniche di data science utilizzate per "upsale", "cross-sale", segmentazione del mercato, branding e CLV.
Differenza tra Marketing e vendite - In che modo le vendite e il marketing sono diversi?
In parole molto semplici, le vendite possono essere definite come un processo che si concentra o si rivolge a individui o piccoli gruppi. Marketing D'altra parte, si rivolge a un gruppo più ampio o al pubblico in generale. Marketing comprende la ricerca (identificazione delle esigenze del cliente), lo sviluppo di prodotti (produzione di prodotti innovativi) e la promozione del prodotto (attraverso la pubblicità) e la creazione di consapevolezza del prodotto tra i consumatori. In quanto tale, fare marketing significa generare lead o potenziali clienti. Una volta che il prodotto è uscito sul mercato, è compito dell'addetto alle vendite persuadere il cliente ad acquistare il prodotto. Vendere significa convertire i lead o i potenziali clienti in acquisti e ordini, mentre il marketing è mirato a termini più lunghi, le vendite riguardano obiettivi più brevi.