Struttura del corso

Sezione 1: Data Management in HDFS

  • Vari formati di dati (JSON / Avro / Parquet)
  • Schemi di compressione
  • Mascheramento dei dati
  • Labs : Analisi di diversi formati di dati;  Abilitazione della compressione

Sezione 2: Maiale avanzato

  • Funzioni definite dall'utente
  • Introduzione alle librerie di maiali (ElephantBird / Data-Fu)
  • Caricamento di dati strutturati complessi utilizzando Pig
  • Accordatura del maiale
  • Labs: scripting avanzato di pig, analisi di tipi di dati complessi

Sezione 3 : Avanzate Hive

  • Funzioni definite dall'utente
  • Tabelle compresse
  • Hive Ottimizzazione delle prestazioni
  • Labs : creazione di tabelle compresse, valutazione dei formati e della configurazione delle tabelle

Sezione 4 : HBasi avanzata

  • Modellazione avanzata degli schemi
  • Compressione
  • Inserimento di dati in blocco
  • Confronto tra tavoli larghi e tavoli alti
  • HBase e Maiale
  • HBasi e Hive
  • Ottimizzazione delle prestazioni HBase
  • Laboratori: sintonizzazione HBase; accedere ai dati HBase da Pig & Hive; Utilizzo di Phoenix per la modellazione dei dati

Requisiti

  • Dimestichezza con il linguaggio di programmazione Java (la maggior parte degli esercizi di programmazione sono in Java)
  • Comodo in ambiente Linux (essere in grado di navigare Linux riga di comando, modificare i file utilizzando VI / Nano)
  • una conoscenza operativa  di Hadoop.

Ambiente di laboratorio

Zero Install: Non è necessario installare il software hadoop sui computer degli studenti! Verrà fornito un cluster hadoop funzionante per gli studenti.

Gli studenti avranno bisogno di quanto segue

 21 ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (5)

Corsi in Arrivo

Categorie relative