Pagina Principale
Big Data Corso
Corso di formazione Scienze dei Dati per l'Analisi di Big Data

Corso di formazione Scienze dei Dati per l'Analisi di Big Data

I big data sono insiemi di dati così voluminosi e complessi che i tradizionali software applicativi per l'elaborazione dei dati non sono adeguati per gestirli. Le sfide relative ai big data comprendono l'acquisizione di dati, l'archiviazione dei dati, l'analisi dei dati, la ricerca, la condivisione, il trasferimento, la visualizzazione, l'interrogazione, l'aggiornamento e la riservatezza delle informazioni.

Grazie per aver inviato la tua richiesta! Uno dei nostri team membri ti contatterà a breve.

Grazie per aver inviato il tuo prenotazione! Uno dei nostri team membri ti contatterà a breve.

Struttura del corso

Introduzione alla Data Science per l'Analisi di Big Data

Panoramica della Data Science
Panoramica del Big Data
Strutture dei dati
Motivazioni e complessità del Big Data
Ecosistema del Big Data e nuova approccio all'analisi
Tecnologie chiave nel Big Data
Processo di data mining e problemi
- Mining di pattern associativi
- Agruppamento dei dati
- Rilevazione degli outlier
- Classificazione dei dati

Introduzione al ciclo di vita dell'analisi dei dati

Scoperta
Preparazione dei dati
Pianificazione del modello
Costruzione del modello
Presentazione/Comunicazione dei risultati
Operazionalizzazione
Esercizio: Studio di caso

Da questo punto in poi, la maggior parte del tempo di formazione (80%) sarà dedicata a esempi ed esercizi in R e tecnologie big data correlate.

Inizio con R

Installazione di R e Rstudio
Caratteristiche del linguaggio R
Oggetti in R
Dati in R
Manipolazione dei dati
Problemi con i big data
Esercizi

Inizio con Hadoop

Installazione di Hadoop
Comprensione delle modalità di Hadoop
HDFS
Architettura MapReduce
Panoramica dei progetti correlati a Hadoop
Sviluppo di programmi in Hadoop MapReduce
Esercizi

Integrazione di R e Hadoop con RHadoop

Componenti di RHadoop
Installazione di RHadoop e connessione a Hadoop
Architettura di RHadoop
Hadoop streaming con R
Risoluzione dei problemi di data analytics con RHadoop
Esercizi

Pre-elaborazione e preparazione dei dati

Passaggi per la preparazione dei dati
Estrazione delle caratteristiche
Pulizia dei dati
Integrazione e trasformazione dei dati
Riduzione dei dati – campionamento, selezione di sottoinsiemi di caratteristiche,
Riduzione della dimensionalità
Discretizzazione e binning
Esercizi e studio di caso

Metodi di analisi esplorativa dei dati in R

Statistica descrittiva
Analisi esplorativa dei dati
Visualizzazione – passaggi preliminari
Visualizzazione di variabili singole
Esporre variabili multiple
Metodi statistici per la valutazione
Test d'ipotesi
Esercizi e studio di caso

Data Visualizations

Visualizzazioni di base in R
Pacchetti per la visualizzazione dei dati ggplot2, lattice, plotly, lattice
Formattazione delle trame in R
Grafici avanzati
Esercizi

Regressione (Stima dei valori futuri)

Regressione lineare
Casi d'uso
Descrizione del modello
Diagnostics
Problemi con la regressione lineare
Metodi di riduzione, regressione ridge, lasso
Generalizzazioni e non linearità
Splines di regressione
Regressione polinomiale locale
Modelli additivi generalizzati
Regressione con RHadoop
Esercizi e studio di caso

Classificazione

I problemi correlati alla classificazione
Ripasso bayesiano
Naïve Bayes
Regressione logistica
K-vicini più vicini
Algoritmo degli alberi decisionali
Rete neurale
Machines a vettori di supporto (SVM)
Diagnostics dei classificatori
Confronto dei metodi di classificazione
Algoritmi di classificazione scalabili
Esercizi e studio di caso

Valutazione delle prestazioni del modello e selezione

Bias, varianza e complessità del modello
Precisione vs interpretabilità
Valutazione dei classificatori
Misure di prestazioni del modello/algorithm
Metodo di validazione hold-out
Cross-validation
Regolazione degli algoritmi di machine learning con il pacchetto caret
Visualizzazione delle prestazioni del modello con curve Profit ROC e Lift

Metodi Ensemble

Bagging
Random Forests
Boosting
Gradient boosting
Esercizi e studio di caso

Machines a vettori di supporto per classificazione e regressione

Classificatori con margine massimale
- Classificatori a vettore di supporto
- Machines a vettori di supporto (SVM)
- SVM per problemi di classificazione
- SVM per problemi di regressione
Esercizi e studio di caso

Riconoscimento di gruppi sconosciuti all'interno di un set di dati

Selezione delle caratteristiche per l'agglomerazione
Algoritmi basati su rappresentanti: k-means, k-medoids
Algoritmi gerarchici: metodi aggregativi e divisivi
Algoritmi probabilistici: EM
Algoritmi basati sulla densità: DBSCAN, DENCLUE
Validazione degli agglomerati
Concetti avanzati di clustering
Clustering con RHadoop
Esercizi e studio di caso

Scoperta di connessioni con l'analisi dei link

Concetti di analisi dei link
Metriche per l'analisi delle reti
L'algoritmo Pagerank
Ricerca tematica indotta dai collegamenti ipertestuali (Hyperlink-Induced Topic Search)
Predizione dei link
Esercizi e studio di caso

Mining di pattern associativi

Modello di mining di pattern frequenti
Problemi di scalabilità nel mining di pattern frequenti
Algoritmi brute force
Algoritmo Apriori
L'approccio FP growth
Valutazione delle regole candidate
Applicazioni delle regole di associazione
Validazione e test
Diagnostics
Regole di associazione con R e Hadoop
Esercizi e studio di caso

Costruzione di motori di raccomandazione

Comprensione dei sistemi di raccomandazione
Tecniche di data mining utilizzate nei sistemi di raccomandazione
Sistemi di raccomandazione con il pacchetto recommenderlab
Valutazione dei sistemi di raccomandazione
Raccomandazioni con RHadoop
Esercizio: Costruzione del motore di raccomandazione

Analisi del testo

Pasaggi dell'analisi del testo
Raccolta del testo grezzo
Sacco di parole (Bag of words)
Frequenza termini – Frequenza inversa dei documenti (Term Frequency –Inverse Document Frequency)
Determinazione dell'umore (Sentiment Analysis)
Esercizi e studio di caso

35 ore

Numero di Partecipanti

Interaziendale

Privato - online/onsite

Selezionare la località

Selezionare una sede

Prezzo per partecipante

I corsi di formazione interaziendali richiedono più di 5 partecipanti.

Corso di formazione Scienze dei Dati per l'Analisi di Big Data - Prenotazione

Nome e Cognome *

Email *

Telefono *

Titolo professionale

Nome della società

Indirizzo 1 *

Città *

Stato/Provincia

Paese *

Codice Postale *

Data d'inizio

CF / P. IVA

Le date sono soggette a disponibilità e si svolgono tra 09:30 e 16:30.

Pagamento *

Bonifico bancario (fattura, ODA)

Carta di debito / credito

Commenti

Termini e Condizioni *

Sono un rappresentante autorizzato del cliente sopra indicato e desidero prenotare i corsi o i servizi di cui sopra in conformità con i termini e le condizioni e la politica sulla privacy di NobleProg.

Informarmi su sconti e promozioni

Per favore leggi la nostra Informativa sulla privacy per sapere come utilizziamo i tuoi dati.

Corso di formazione Scienze dei Dati per l'Analisi di Big Data - Richiesta

Nome e Cognome *

Email *

Telefono *

Numero di Partecipanti

Nome della società

Indirizzo della società

Come vuoi seguire il corso?

Premises del Cliente

Online

Classe

Commenti

Informarmi su sconti e promozioni

Per favore leggi la nostra Informativa sulla privacy per sapere come utilizziamo i tuoi dati.

Scienze dei Dati per l'Analisi di Big Data - Richiesta di consulenza

Nome e Cognome *

Telefono *

Email *

Nome della società

Oggetto della consulenza *

Obiettivo della consulenza

Con chi lavorerà il consulente?

Urgenza della consulenza *

Commenti

Informarmi su sconti e promozioni

Per favore leggi la nostra Informativa sulla privacy per sapere come utilizziamo i tuoi dati.

Recensioni (2)

Intensità, Materiali didattici e competenze, Chiarezza, Eccellente comunicazione con Alessandra

Marija Hornis Dmitrovic - Marija Hornis

Corso - Data Science for Big Data Analytics

Traduzione automatica

The example and training material were sufficient and made it easy to understand what you are doing.

Teboho Makenete

Corso - Data Science for Big Data Analytics

5950 EUR (Online)

6950 EUR (Classe)

Corsi relativi

Ecosystem per gli Scienziati dei Dati

14 ore

Questo corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto ai data scientist che desiderano utilizzare l'ecosistema Anaconda per acquisire, gestire e distribuire pacchetti e flussi di lavoro di analisi dei dati in un'unica piattaforma.

Al termine di questo corso di formazione, i partecipanti saranno in grado di:

Installare e configurare Anaconda componenti e librerie.
Comprendere i concetti fondamentali, le caratteristiche e i vantaggi di Anaconda.
Gestisci pacchetti, ambienti e canali utilizzando Anaconda Navigator.
Usa i pacchetti Conda, R e Python per l'analisi scientifica dei dati e l'apprendimento automatico.
Scopri alcuni casi d'uso pratici e tecniche per la gestione di più ambienti di dati.

Ulteriori Informazioni...

Formazione per amministratori per Apache Hadoop

35 ore

Pubblico Obiettivo:

Il corso è destinato ai professionisti IT in cerca di una soluzione per archiviare e processare grandi insiemi di dati in un ambiente di sistema distribuito.

Goal:

Conoscenze approfondite nell'amministrazione del cluster Hadoop.

Ulteriori Informazioni...

Big Data Analytics in Health

21 ore

L'analisi dei big data coinvolge il processo di esaminare grandi quantità di set di dati vari per scoprire correlazioni, pattern nascosti e altre utili intuizioni.

L'industria sanitaria dispone di enormi quantità di dati medici e clinici complessi e eterogenei. L'applicazione dell'analisi dei big data ai dati sanitari presenta un enorme potenziale per derivare intuizioni che migliorino la fornitura di cure sanitarie. Tuttavia, l'enormità di questi set di dati comporta grandi sfide nelle analisi e nelle applicazioni pratiche in un ambiente clinico.

In questo training guidato dall'instruttore (remoto), i partecipanti impareranno come eseguire l'analisi dei big data in campo sanitario attraverso una serie di esercizi pratica guidati dal vivo.

Al termine di questo training, i partecipanti saranno in grado di:

Installare e configurare strumenti di analisi dei big data come Hadoop MapReduce e Spark
Comprendere le caratteristiche dei dati medici
Applicare tecniche di big data per gestire i dati medici
Studiare sistemi e algoritmi di big data nel contesto delle applicazioni sanitarie

Pubblico di riferimento

Sviluppatori
Data Scientists

Formato del Corso

Parte lezione, parte discussione, esercizi e pratica intensiva.

Note

Per richiedere un training personalizzato per questo corso, si prega di contattarci per organizzarlo.

Ulteriori Informazioni...

Hadoop per gli amministratori

21 ore

Apache Hadoop è il framework più popolare per il processing Big Data su cluster di server. In questo corso di tre (opzionalmente quattro) giorni, gli iscritti impareranno i benefici aziendali e i casi d'uso per Hadoop ed il suo ecosistema, come pianificare la distribuzione e lo scaling del cluster, come installare, mantenere, monitorare, risolvere problemi e ottimizzare Hadoop. Praticheranno anche il caricamento di dati bulk sul cluster, si familiarizzeranno con varie distribuzioni di Hadoop, ed impareranno a installare e gestire gli strumenti dell'ecosistema Hadoop. Il corso si conclude con una discussione sulla sicurezza del cluster tramite Kerberos.

"...I materiali sono stati preparati molto bene e coperti in modo approfondito. La Lab è stata molto utile ed organizzata bene"— Andrew Nguyen, Principal Integration DW Engineer, Microsoft Online Advertising

Target

Amministratori di Hadoop

Formato

Lezioni e laboratori pratici, equilibrio approssimativo 60% lezioni, 40% laboratorio.

Ulteriori Informazioni...

Hadoop per sviluppatori (4 giorni)

28 ore

Apache Hadoop è il framework più popolare per l'elaborazione di Big Data su cluster di server. Questo corso introdurrà gli sviluppatori a vari componenti dell'ecosistema Hadoop, tra cui HDFS, MapReduce, Pig, Hive e HBase.

Ulteriori Informazioni...

Hadoop Avanzato per Sviluppatori

21 ore

Apache Hadoop è uno dei framework più popolari per l'elaborazione di Big Data su cluster di server. Questo corso si concentra sulla gestione dei dati in HDFS, Pig avanzato, Hive e HBase. Queste tecniche di programmazione avanzate saranno utili agli sviluppatori Hadoop esperti.

Pubblico: sviluppatori

Durata: tre giorni

Formato: lezioni (50%) e laboratori pratici (50%).

Ulteriori Informazioni...

Amministrazione di Hadoop su MapR

28 ore

Pubblico Obiettivo:

Questo corso è progettato per demistificare la tecnologia big data/Hadoop e mostrare che non è difficile da comprendere.

Ulteriori Informazioni...

Hadoop e Spark per gli Amministratori

35 ore

Questo corso di formazione diretto dall'instruttore (online o in presenza) è rivolto agli amministratori di sistema che desiderano imparare come configurare, distribuire e gestire cluster Hadoop all'interno della loro organizzazione.

Al termine di questo corso, i partecipanti saranno in grado di:

Installare e configurare Apache Hadoop.
Comprendere i quattro principali componenti nell'ecosistema Hadoop: HDFS, MapReduce, YARN e Hadoop Common.
Utilizzare il Hadoop Distributed File System (HDFS) per scalare un cluster a centinaia o migliaia di nodi.
Configurare HDFS come motore di archiviazione per distribuzioni Spark on-premise.
Configurare Spark per accedere a soluzioni di archiviazione alternative come Amazon S3 e sistemi database NoSQL come Redis, Elasticsearch, Couchbase, Aerospike, ecc.
Eseguire attività amministrative come provisioning, gestione, monitoraggio e protezione di un cluster Apache Hadoop.

Ulteriori Informazioni...

HBase per sviluppatori

21 ore

Questo corso introduce HBase – uno store NoSQL su Hadoop. Il corso è destinato a sviluppatori che useranno HBase per sviluppare applicazioni e amministratori che gestiranno cluster HBase.

Percorreremo con lo sviluppatore l'architettura di HBase, la modellazione dei dati e lo sviluppo delle applicazioni su HBase. Discuteremo anche l'uso di MapReduce con HBase e alcuni argomenti amministrativi relativi all'ottimizzazione delle prestazioni. Il corso è molto pratico, con numerosi esercizi in laboratorio.

Durata: 3 giorni

Pubblico: Sviluppatori e Amministratori

Ulteriori Informazioni...

Kaggle

14 ore

Questo corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto a data scientist e sviluppatori che desiderano apprendere e costruire la propria carriera in Data Science utilizzando Kaggle.

Al termine di questo corso di formazione, i partecipanti saranno in grado di:

Scopri di più sulla scienza dei dati e sull'apprendimento automatico.
Esplora l'analisi dei dati.
Scopri di più su Kaggle e su come funziona.

Ulteriori Informazioni...

Accelerando i Flussi di Lavoro Python Pandas con Modin

14 ore

Questo corso di formazione dal vivo con istruttore in Italia (online o in loco) è rivolto a data scientist e sviluppatori che desiderano utilizzare Modin per creare e implementare calcoli paralleli con Pandas per un'analisi più rapida dei dati.

Al termine di questo corso di formazione, i partecipanti saranno in grado di:

Configura l'ambiente necessario per iniziare a sviluppare Pandas flussi di lavoro su larga scala con Modin.
Comprendere le caratteristiche, l'architettura e i vantaggi di Modin.
Conosci le differenze tra Modin, Dask e Ray.
Esegui Pandas operazioni più velocemente con Modin.
Implementa l'intera API e le funzioni Pandas.

Ulteriori Informazioni...

PySpark e Machine Learning

21 ore

Questo corso offre un'introduzione pratica alla creazione di workflow scalabili per l'elaborazione dei dati e il Machine Learning utilizzando PySpark. I partecipanti apprenderanno come Apache Spark opera all'interno degli ecosistemi moderni di Big Data e come elaborare in modo efficiente grandi dataset sfruttando i principi del calcolo distribuito.

Ulteriori Informazioni...

Data Science con GPU utilizzando NVIDIA RAPIDS

14 ore

Questo corso di formazione guidato dal docente (online o in sede) è rivolto a data scientists e sviluppatori che desiderano utilizzare RAPIDS per costruire pipeline di dati, flussi di lavoro e visualizzazioni accelerate da GPU, applicando algoritmi di machine learning come XGBoost, cuML, ecc.

Al termine di questo corso, i partecipanti saranno in grado di:

Configurare l'ambiente di sviluppo necessario per costruire modelli di dati con NVIDIA RAPIDS.
Comprendere le funzionalità, i componenti e i vantaggi di RAPIDS.
Sfruttare le GPU per accelerare pipeline end-to-end di dati e analisi.
Implementare la preparazione dei dati e l'ETL accelerati da GPU con cuDF e Apache Arrow.
Imparare come eseguire compiti di machine learning con algoritmi XGBoost e cuML.
Creare visualizzazioni dei dati ed eseguire l'analisi grafica con cuXfilter e cuGraph.

Ulteriori Informazioni...

Python e Spark per Big Data (PySpark)

21 ore

In questo corso di formazione dal vivo con istruttore in Italia, i partecipanti impareranno come utilizzare Python e Spark insieme per analizzare i big data mentre lavorano su esercizi pratici.

Al termine di questo corso di formazione, i partecipanti saranno in grado di:

Scopri come utilizzare Spark con Python per analizzare Big Data.
Lavora su esercizi che imitano casi del mondo reale.
Utilizzare diversi strumenti e tecniche per l'analisi dei big data utilizzando PySpark.

Ulteriori Informazioni...

Stratio: Moduli Rocket e Intelligence con PySpark

14 ore

Stratio è una piattaforma orientata ai dati che integra big data, AI e governance in un'unica soluzione. I moduli Rocket e Intelligence permettono esplorazioni rapide dei dati, trasformazioni ed analisi avanzate negli ambienti aziendali.

Questa formazione guidata dal docente (online o in sede) è rivolta a professionisti dei dati di livello intermedio che desiderano utilizzare i moduli Rocket e Intelligence di Stratio efficacemente con PySpark, concentrandosi su strutture di ciclo, funzioni definite dall'utente e logica avanzata dei dati.

Al termine di questa formazione, i partecipanti saranno in grado di:

Navigare e lavorare all'interno della piattaforma Stratio utilizzando i moduli Rocket e Intelligence.
Applicare PySpark nel contesto di ingestione, trasformazione ed analisi dei dati.
Utilizzare cicli e logica condizionale per controllare i flussi di lavoro dei dati e le attività di feature engineering.
Creare e gestire funzioni definite dall'utente (UDFs) per operazioni di dati riutilizzabili in PySpark.

Formato del Corso

Lezione interattiva e discussione.
Molte esercitazioni e pratica.
Implementazione pratica in un ambiente di laboratorio live.

Opzioni di Personalizzazione del Corso

Per richiedere una formazione personalizzata per questo corso, contattateci per organizzare l'evento.

Ulteriori Informazioni...

Corso di formazione Scienze dei Dati per l'Analisi di Big Data

Struttura del corso

Introduzione alla Data Science per l'Analisi di Big Data

Introduzione al ciclo di vita dell'analisi dei dati

Da questo punto in poi, la maggior parte del tempo di formazione (80%) sarà dedicata a esempi ed esercizi in R e tecnologie big data correlate.

Inizio con R

Inizio con Hadoop

Integrazione di R e Hadoop con RHadoop

Pre-elaborazione e preparazione dei dati

Metodi di analisi esplorativa dei dati in R

Data Visualizations

Regressione (Stima dei valori futuri)

Classificazione

Valutazione delle prestazioni del modello e selezione

Metodi Ensemble

Machines a vettori di supporto per classificazione e regressione

Riconoscimento di gruppi sconosciuti all'interno di un set di dati

Scoperta di connessioni con l'analisi dei link

Mining di pattern associativi

Costruzione di motori di raccomandazione

Analisi del testo

Recensioni (2)

Marija Hornis Dmitrovic - Marija Hornis

Corso - Data Science for Big Data Analytics

Teboho Makenete

Corso - Data Science for Big Data Analytics

Corsi in Arrivo

Scienze dei Dati per l'Analisi di Big Data

Scienze dei Dati per l'Analisi di Big Data

Scienze dei Dati per l'Analisi di Big Data

Scienze dei Dati per l'Analisi di Big Data

Scienze dei Dati per l'Analisi di Big Data

Categorie relative

Questo sito in altri paesi/regioni

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites