Struttura del corso

Sezione 1: Dati Management in HDFS

  • Vari formati di dati (JSON / Avro / Parquet)
  • Schemi di compressione
  • Mascheramento dei dati
  • Laboratori : Analisi di diversi formati di dati; Abilitazione della compressione

Sezione 2: Maiale avanzato

  • Funzioni definite dall'utente
  • Introduzione alle librerie di maiali (ElephantBird / Data-Fu)
  • Caricamento di dati strutturati complessi con Pig
  • Accordatura del maiale
  • Laboratori: pig scripting avanzato, analisi di tipi di dati complessi

Sezione 3 : Avanzate Hive

  • Funzioni definite dall'utente
  • Tabelle compresse
  • Hive Ottimizzazione delle prestazioni
  • Laboratori : creazione di tabelle compresse, valutazione dei formati e della configurazione delle tabelle

Sezione 4 : HBase avanzata

  • Modellazione avanzata dello schema
  • Compressione
  • Inserimento di dati in blocco
  • Confronto tra tavolo largo e tavolo alto
  • HBase e Maiale
  • HBase e Hive
  • Ottimizzazione delle prestazioni HBase
  • Laboratori: messa a punto di HBase; l'accesso ai dati HBase da Pig & Hive; Utilizzo di Phoenix per la modellazione dei dati

Requisiti

  • dimestichezza con il linguaggio di programmazione Java (la maggior parte degli esercizi di programmazione sono in java)
  • A proprio agio in ambiente Linux (essere in grado di navigare nella riga di comando Linux, modificare i file utilizzando vi / nano)
  • una conoscenza pratica  di Hadoop.

Ambiente di laboratorio

Zero installazioni: non c'è bisogno di installare il software hadoop sulle macchine degli studenti! Per gli studenti verrà fornito un cluster hadoop funzionante.

Gli studenti avranno bisogno di quanto segue

  • un client SSH (Linux e Mac hanno già client ssh, per Windows Putty è consigliato)
  • Un browser per accedere al cluster. Consigliamo il browser Firefox
 21 ore

Numero di Partecipanti



Prezzo per Partecipante

Recensioni (3)

Corsi relativi

Categorie relative