Struttura del corso

Introduzione alla Data Science per l'Analisi di Big Data

  • Panoramica della Data Science
  • Panoramica del Big Data
  • Strutture dei dati
  • Motivazioni e complessità del Big Data
  • Ecosistema del Big Data e nuova approccio all'analisi
  • Tecnologie chiave nel Big Data
  • Processo di data mining e problemi
    • Mining di pattern associativi
    • Agruppamento dei dati
    • Rilevazione degli outlier
    • Classificazione dei dati

Introduzione al ciclo di vita dell'analisi dei dati

  • Scoperta
  • Preparazione dei dati
  • Pianificazione del modello
  • Costruzione del modello
  • Presentazione/Comunicazione dei risultati
  • Operazionalizzazione
  • Esercizio: Studio di caso

Da questo punto in poi, la maggior parte del tempo di formazione (80%) sarà dedicata a esempi ed esercizi in R e tecnologie big data correlate.

Inizio con R

  • Installazione di R e Rstudio
  • Caratteristiche del linguaggio R
  • Oggetti in R
  • Dati in R
  • Manipolazione dei dati
  • Problemi con i big data
  • Esercizi

Inizio con Hadoop

  • Installazione di Hadoop
  • Comprensione delle modalità di Hadoop
  • HDFS
  • Architettura MapReduce
  • Panoramica dei progetti correlati a Hadoop
  • Sviluppo di programmi in Hadoop MapReduce
  • Esercizi

Integrazione di R e Hadoop con RHadoop

  • Componenti di RHadoop
  • Installazione di RHadoop e connessione a Hadoop
  • Architettura di RHadoop
  • Hadoop streaming con R
  • Risoluzione dei problemi di data analytics con RHadoop
  • Esercizi

Pre-elaborazione e preparazione dei dati

  • Passaggi per la preparazione dei dati
  • Estrazione delle caratteristiche
  • Pulizia dei dati
  • Integrazione e trasformazione dei dati
  • Riduzione dei dati – campionamento, selezione di sottoinsiemi di caratteristiche,
  • Riduzione della dimensionalità
  • Discretizzazione e binning
  • Esercizi e studio di caso

Metodi di analisi esplorativa dei dati in R

  • Statistica descrittiva
  • Analisi esplorativa dei dati
  • Visualizzazione – passaggi preliminari
  • Visualizzazione di variabili singole
  • Esporre variabili multiple
  • Metodi statistici per la valutazione
  • Test d'ipotesi
  • Esercizi e studio di caso

Data Visualizations

  • Visualizzazioni di base in R
  • Pacchetti per la visualizzazione dei dati ggplot2, lattice, plotly, lattice
  • Formattazione delle trame in R
  • Grafici avanzati
  • Esercizi

Regressione (Stima dei valori futuri)

  • Regressione lineare
  • Casi d'uso
  • Descrizione del modello
  • Diagnostics
  • Problemi con la regressione lineare
  • Metodi di riduzione, regressione ridge, lasso
  • Generalizzazioni e non linearità
  • Splines di regressione
  • Regressione polinomiale locale
  • Modelli additivi generalizzati
  • Regressione con RHadoop
  • Esercizi e studio di caso

Classificazione

  • I problemi correlati alla classificazione
  • Ripasso bayesiano
  • Naïve Bayes
  • Regressione logistica
  • K-vicini più vicini
  • Algoritmo degli alberi decisionali
  • Rete neurale
  • Machines a vettori di supporto (SVM)
  • Diagnostics dei classificatori
  • Confronto dei metodi di classificazione
  • Algoritmi di classificazione scalabili
  • Esercizi e studio di caso

Valutazione delle prestazioni del modello e selezione

  • Bias, varianza e complessità del modello
  • Precisione vs interpretabilità
  • Valutazione dei classificatori
  • Misure di prestazioni del modello/algorithm
  • Metodo di validazione hold-out
  • Cross-validation
  • Regolazione degli algoritmi di machine learning con il pacchetto caret
  • Visualizzazione delle prestazioni del modello con curve Profit ROC e Lift

Metodi Ensemble

  • Bagging
  • Random Forests
  • Boosting
  • Gradient boosting
  • Esercizi e studio di caso

Machines a vettori di supporto per classificazione e regressione

  • Classificatori con margine massimale
    • Classificatori a vettore di supporto
    • Machines a vettori di supporto (SVM)
    • SVM per problemi di classificazione
    • SVM per problemi di regressione
  • Esercizi e studio di caso

Riconoscimento di gruppi sconosciuti all'interno di un set di dati

  • Selezione delle caratteristiche per l'agglomerazione
  • Algoritmi basati su rappresentanti: k-means, k-medoids
  • Algoritmi gerarchici: metodi aggregativi e divisivi
  • Algoritmi probabilistici: EM
  • Algoritmi basati sulla densità: DBSCAN, DENCLUE
  • Validazione degli agglomerati
  • Concetti avanzati di clustering
  • Clustering con RHadoop
  • Esercizi e studio di caso

Scoperta di connessioni con l'analisi dei link

  • Concetti di analisi dei link
  • Metriche per l'analisi delle reti
  • L'algoritmo Pagerank
  • Ricerca tematica indotta dai collegamenti ipertestuali (Hyperlink-Induced Topic Search)
  • Predizione dei link
  • Esercizi e studio di caso

Mining di pattern associativi

  • Modello di mining di pattern frequenti
  • Problemi di scalabilità nel mining di pattern frequenti
  • Algoritmi brute force
  • Algoritmo Apriori
  • L'approccio FP growth
  • Valutazione delle regole candidate
  • Applicazioni delle regole di associazione
  • Validazione e test
  • Diagnostics
  • Regole di associazione con R e Hadoop
  • Esercizi e studio di caso

Costruzione di motori di raccomandazione

  • Comprensione dei sistemi di raccomandazione
  • Tecniche di data mining utilizzate nei sistemi di raccomandazione
  • Sistemi di raccomandazione con il pacchetto recommenderlab
  • Valutazione dei sistemi di raccomandazione
  • Raccomandazioni con RHadoop
  • Esercizio: Costruzione del motore di raccomandazione

Analisi del testo

  • Pasaggi dell'analisi del testo
  • Raccolta del testo grezzo
  • Sacco di parole (Bag of words)
  • Frequenza termini – Frequenza inversa dei documenti (Term Frequency –Inverse Document Frequency)
  • Determinazione dell'umore (Sentiment Analysis)
  • Esercizi e studio di caso
 35 Ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (2)

Corsi in Arrivo

Categorie relative