Struttura del corso

Sezione 1: Gestione dei Dati in HDFS

  • Diversi Format di Dati (JSON / Avro / Parquet)
  • Schemi di Compressione
  • Mascheramento dei Dati
  • Laboratori : Analisi di diversi formati di dati; attivazione della compressione

Sezione 2: Pig Avanzato

  • Funzioni Definite dall'Utente
  • Introduzione alle Librerie Pig (ElephantBird / Data-Fu)
  • Caricamento di Dati Strutturati Complessi usando Pig
  • Ottimizzazione di Pig
  • Laboratori : scripting avanzato con Pig, parsing di tipi di dati complessi

Sezione 3: Hive Avanzato

  • Funzioni Definite dall'Utente
  • Tabelle Comprimibili
  • Ottimizzazione delle Prestazioni di Hive
  • Laboratori : creazione di tabelle compresse, valutazione dei formati e della configurazione delle tabelle

Sezione 4: HBase Avanzato

  • Modellizzazione dello Schema Avanzata
  • Compressione
  • Ingestione di Dati in Bulk
  • Confronto tra Tabelle Larghe e Tabelle Alte
  • HBase e Pig
  • HBase e Hive
  • Ottimizzazione delle Prestazioni di HBase
  • Laboratori : ottimizzazione di HBase; accesso ai dati di HBase da Pig & Hive; Utilizzo di Phoenix per la modellazione dei dati

Requisiti

  • familiarità con il linguaggio di programmazione Java (la maggior parte degli esercizi di programmazione sono in Java)
  • familiarità con l'ambiente Linux (essere in grado di navigare nella riga di comando di Linux, modificare file usando vi / nano)
  • conoscenze operative di Hadoop.

Ambiente del laboratorio

Installazione Zero: Non è necessario installare il software Hadoop sulle macchine degli studenti! Un cluster Hadoop funzionante sarà fornito agli studenti.

Gli studenti avranno bisogno di:

 21 Ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (5)

Corsi in Arrivo

Categorie relative