Struttura del corso

Introduzione a Data Science for Big Data Analytics

    Data Science Panoramica Panoramica sui Big Data Strutture dati Driver e complessità dei Big Data L'ecosistema dei Big Data e un nuovo approccio all'analisi Tecnologie chiave nei Big Data Processo e problemi di data mining Estrazione di modelli di associazione Clustering dei dati Rilevamento dei valori anomali Classificazione dei dati

Introduzione al ciclo di vita dell'analisi dei dati

    Scoperta Preparazione dei dati Pianificazione del modello Costruzione di modelli Presentazione/Communication dei risultati Operazionalizzazione Esercizio: Caso di studio

Da questo momento in poi, la maggior parte del tempo di formazione (80%) sarà dedicato a esempi ed esercizi di R e della relativa tecnologia dei big data.

Introduzione a R

    Installazione di R e Rstudio Funzionalità del linguaggio R Oggetti in R Dati in R Manipolazione dei dati Problemi legati ai big data Esercizi

Guida introduttiva a Hadoop

    Installazione Hadoop Informazioni sulle modalità Hadoop HDFS (Acciaio inossidabile HDFS) Architettura di MapReduce Hadoop Panoramica dei progetti correlati Scrivere programmi in Hadoop MapReduce Esercizi

Integrazione di R e Hadoop con RHadoop

    Componenti di RHadoop Installazione di RHadoop e connessione con Hadoop L'architettura di RHadoop Hadoop streaming con R Risoluzione dei problemi di analisi dei dati con RHadoop Esercizi

Pre-elaborazione e preparazione dei dati

    Fasi di preparazione dei dati Estrazione di feature Pulizia dei dati Integrazione e trasformazione dei dati Riduzione dei dati: campionamento, selezione di sottoinsiemi di funzionalità, Riduzione della dimensionalità Discretizzazione e binning Esercizi e Casi di studio

Metodi esplorativi di analisi dei dati in R

    Statistica descrittiva Analisi esplorativa dei dati Visualizzazione – fasi preliminari Visualizzazione di una singola variabile Esame di più variabili Metodi statistici per la valutazione Verifica delle ipotesi Esercizi e Casi di studio

Data Visualizations

    Visualizzazioni di base in R Pacchetti per la visualizzazione dei dati ggplot2, lattice, plotly, lattice Formattazione dei grafici in R Grafici avanzati Esercizi

Regressione (stima dei valori futuri)

    Regressione lineare Casi d'uso Descrizione del modello Diagnostica Problemi con la regressione lineare Metodi di ritiro, regressione di cresta, lazo Generalizzazioni e non linearità Spline di regressione Regressione polinomiale locale Modelli additivi generalizzati Regressione con RHadoop Esercizi e Casi di studio

Classificazione

    I problemi legati alla classificazione Aggiornamento bayesiano Bayes ingenuo Regressione logistica K-vicini più prossimi Algoritmo degli alberi decisionali Reti neurali Macchine vettoriali di supporto Diagnostica dei classificatori Confronto tra i metodi di classificazione ScalaAlgoritmi di classificazione BLE Esercizi e Casi di studio

Valutazione delle prestazioni e della selezione del modello

    Distorsione, varianza e complessità del modello Accuratezza vs interpretabilità Valutazione dei classificatori Misure delle prestazioni del modello/algoritmo Metodo di convalida del controllo Convalida incrociata Ottimizzazione degli algoritmi di apprendimento automatico con il pacchetto di accento circonflesso Visualizzazione delle prestazioni del modello con le curve Profit ROC e Lift

Metodi Ensemble

    Insaccamento Random Forests Aumentare Aumento del gradiente Esercizi e Casi di studio

Supportare le macchine vettoriali per la classificazione e la regressione

    Classificatori Maximal Margin Classificatori vettoriali di supporto Macchine vettoriali di supporto SVM per problemi di classificazione SVM per problemi di regressione
Esercizi e Casi di studio
  • Identificazione di raggruppamenti sconosciuti all'interno di un set di dati
  • Selezione delle funzionalità per il clustering Algoritmi rappresentativi: k-medie, k-medoidi Algoritmi gerarchici: metodi agglomeranti e divisivi Algoritmi probabilistici di base: EM Algoritmi basati sulla densità: DBSCAN, DENCLUE Convalida del cluster Concetti avanzati di clustering Clustering con RHadoop Esercizi e Casi di studio

      Individuazione delle connessioni con l'analisi dei collegamenti

    Concetti relativi all'analisi dei collegamenti Metriche per l'analisi delle reti L'algoritmo del Pagerank Argomento indotto da collegamenti ipertestuali Search Previsione dei collegamenti Esercizi e Casi di studio

      Estrazione di modelli di associazione

    Modello di data mining di modelli frequentiFrequent Pattern Mining Model ScalaProblemi di abilità nel pattern mining frequente Algoritmi di forza bruta Algoritmo di Apriori L'approccio di crescita del PQ Valutazione delle regole candidate Applicazione delle regole di associazione Validazione e collaudo Diagnostica Regole di associazione con R e Hadoop Esercizi e Casi di studio

      Costruzione di motori di raccomandazione

    Informazioni sui sistemi di raccomandazione Tecniche di data mining utilizzate nei sistemi di raccomandazione Sistemi di raccomandazione con pacchetto recommenderlab Valutazione dei sistemi di raccomandazione Raccomandazioni con RHadoop Esercizio: Creazione di un motore di suggerimenti

      Analisi del testo

    Passaggi per l'analisi del testo Raccolta di testo non elaborato Sacco di parole Frequenza termine – Frequenza inversa del documento Determinazione dei sentimenti Esercizi e Casi di studio

     35 ore

    Numero di Partecipanti



    Prezzo per Partecipante

    Recensioni (2)

    Corsi relativi

    Unified Batch and Stream Processing with Apache Beam

    14 ore

    Categorie relative