Grazie per aver inviato la tua richiesta! Uno dei nostri team membri ti contatterà a breve.
Grazie per aver inviato il tuo prenotazione! Uno dei nostri team membri ti contatterà a breve.
Struttura del corso
Introduzione alla Data Science per l'Analisi di Big Data
- Panoramica della Data Science
- Panoramica del Big Data
- Strutture dei dati
- Motivazioni e complessità del Big Data
- Ecosistema del Big Data e nuova approccio all'analisi
- Tecnologie chiave nel Big Data
- Processo di data mining e problemi
- Mining di pattern associativi
- Agruppamento dei dati
- Rilevazione degli outlier
- Classificazione dei dati
Introduzione al ciclo di vita dell'analisi dei dati
- Scoperta
- Preparazione dei dati
- Pianificazione del modello
- Costruzione del modello
- Presentazione/Comunicazione dei risultati
- Operazionalizzazione
- Esercizio: Studio di caso
Da questo punto in poi, la maggior parte del tempo di formazione (80%) sarà dedicata a esempi ed esercizi in R e tecnologie big data correlate.
Inizio con R
- Installazione di R e Rstudio
- Caratteristiche del linguaggio R
- Oggetti in R
- Dati in R
- Manipolazione dei dati
- Problemi con i big data
- Esercizi
Inizio con Hadoop
- Installazione di Hadoop
- Comprensione delle modalità di Hadoop
- HDFS
- Architettura MapReduce
- Panoramica dei progetti correlati a Hadoop
- Sviluppo di programmi in Hadoop MapReduce
- Esercizi
Integrazione di R e Hadoop con RHadoop
- Componenti di RHadoop
- Installazione di RHadoop e connessione a Hadoop
- Architettura di RHadoop
- Hadoop streaming con R
- Risoluzione dei problemi di data analytics con RHadoop
- Esercizi
Pre-elaborazione e preparazione dei dati
- Passaggi per la preparazione dei dati
- Estrazione delle caratteristiche
- Pulizia dei dati
- Integrazione e trasformazione dei dati
- Riduzione dei dati – campionamento, selezione di sottoinsiemi di caratteristiche,
- Riduzione della dimensionalità
- Discretizzazione e binning
- Esercizi e studio di caso
Metodi di analisi esplorativa dei dati in R
- Statistica descrittiva
- Analisi esplorativa dei dati
- Visualizzazione – passaggi preliminari
- Visualizzazione di variabili singole
- Esporre variabili multiple
- Metodi statistici per la valutazione
- Test d'ipotesi
- Esercizi e studio di caso
Data Visualizations
- Visualizzazioni di base in R
- Pacchetti per la visualizzazione dei dati ggplot2, lattice, plotly, lattice
- Formattazione delle trame in R
- Grafici avanzati
- Esercizi
Regressione (Stima dei valori futuri)
- Regressione lineare
- Casi d'uso
- Descrizione del modello
- Diagnostics
- Problemi con la regressione lineare
- Metodi di riduzione, regressione ridge, lasso
- Generalizzazioni e non linearità
- Splines di regressione
- Regressione polinomiale locale
- Modelli additivi generalizzati
- Regressione con RHadoop
- Esercizi e studio di caso
Classificazione
- I problemi correlati alla classificazione
- Ripasso bayesiano
- Naïve Bayes
- Regressione logistica
- K-vicini più vicini
- Algoritmo degli alberi decisionali
- Rete neurale
- Machines a vettori di supporto (SVM)
- Diagnostics dei classificatori
- Confronto dei metodi di classificazione
- Algoritmi di classificazione scalabili
- Esercizi e studio di caso
Valutazione delle prestazioni del modello e selezione
- Bias, varianza e complessità del modello
- Precisione vs interpretabilità
- Valutazione dei classificatori
- Misure di prestazioni del modello/algorithm
- Metodo di validazione hold-out
- Cross-validation
- Regolazione degli algoritmi di machine learning con il pacchetto caret
- Visualizzazione delle prestazioni del modello con curve Profit ROC e Lift
Metodi Ensemble
- Bagging
- Random Forests
- Boosting
- Gradient boosting
- Esercizi e studio di caso
Machines a vettori di supporto per classificazione e regressione
- Classificatori con margine massimale
- Classificatori a vettore di supporto
- Machines a vettori di supporto (SVM)
- SVM per problemi di classificazione
- SVM per problemi di regressione
- Esercizi e studio di caso
Riconoscimento di gruppi sconosciuti all'interno di un set di dati
- Selezione delle caratteristiche per l'agglomerazione
- Algoritmi basati su rappresentanti: k-means, k-medoids
- Algoritmi gerarchici: metodi aggregativi e divisivi
- Algoritmi probabilistici: EM
- Algoritmi basati sulla densità: DBSCAN, DENCLUE
- Validazione degli agglomerati
- Concetti avanzati di clustering
- Clustering con RHadoop
- Esercizi e studio di caso
Scoperta di connessioni con l'analisi dei link
- Concetti di analisi dei link
- Metriche per l'analisi delle reti
- L'algoritmo Pagerank
- Ricerca tematica indotta dai collegamenti ipertestuali (Hyperlink-Induced Topic Search)
- Predizione dei link
- Esercizi e studio di caso
Mining di pattern associativi
- Modello di mining di pattern frequenti
- Problemi di scalabilità nel mining di pattern frequenti
- Algoritmi brute force
- Algoritmo Apriori
- L'approccio FP growth
- Valutazione delle regole candidate
- Applicazioni delle regole di associazione
- Validazione e test
- Diagnostics
- Regole di associazione con R e Hadoop
- Esercizi e studio di caso
Costruzione di motori di raccomandazione
- Comprensione dei sistemi di raccomandazione
- Tecniche di data mining utilizzate nei sistemi di raccomandazione
- Sistemi di raccomandazione con il pacchetto recommenderlab
- Valutazione dei sistemi di raccomandazione
- Raccomandazioni con RHadoop
- Esercizio: Costruzione del motore di raccomandazione
Analisi del testo
- Pasaggi dell'analisi del testo
- Raccolta del testo grezzo
- Sacco di parole (Bag of words)
- Frequenza termini – Frequenza inversa dei documenti (Term Frequency –Inverse Document Frequency)
- Determinazione dell'umore (Sentiment Analysis)
- Esercizi e studio di caso
35 Ore
Recensioni (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Corso - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing.