Struttura del corso

Sezione 1: Data Management in HDFS

  • Vari Formati di Dati (JSON / Avro / Parquet)
  • Schemi di Compressione
  • Mascheramento dei Dati
  • Laboratori: Analisi di diversi formati di dati; abilitazione della compressione

Sezione 2: Pig Avanzato

  • Funzioni Definite dall'Utente
  • Introduzione alle Biblioteche Pig (ElephantBird / Data-Fu)
  • Caricamento di Dati Strutturati Complessi con Pig
  • Ottimizzazione Pig
  • Laboratori: scripting avanzato Pig, analisi di tipi di dati complessi

Sezione 3 : Avanzamento Hive

  • Funzioni Definite dall'Utente
  • Tabelle Compressate
  • Ottimizzazione delle Prestazioni di Hive
  • Laboratori: creazione di tabelle compressate, valutazione dei formati e configurazioni delle tabelle

Sezione 4 : HBase Avanzato

  • Modellazione avanzata dello schema
  • Compressione
  • Inserimento di Dati in Blocco
  • Confronto tra tabelle wide e tall
  • HBase e Pig
  • HBase e Hive
  • Ottimizzazione delle Prestazioni HBase
  • Laboratori: ottimizzazione di HBase; accesso ai dati HBase da Pig & Hive; Utilizzo di Phoenix per la modellazione dei dati

Requisiti

  • afferente al linguaggio di programmazione Java (la maggior parte degli esercizi pratici sono in Java)
  • afferente all'ambiente Linux (saper navigare nella riga di comando di Linux, modificare file utilizzando vi/nano)
  • conoscenza operativa di Hadoop.

Ambiente di laboratorio

Zero Install: Non è necessario installare il software Hadoop sui computer degli studenti! Sarà fornita una cluster Hadoop funzionante per gli studenti.

Gli studenti avranno bisogno dei seguenti elementi

 21 ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (5)

Corsi in Arrivo

Categorie relative