Struttura del corso

Sezione 1: Introduzione a Hadoop

  • Storia di Hadoop, concetti
  • ecosistema
  • distribuzioni
  • architettura ad alto livello
  • miti su Hadoop
  • sfide di Hadoop
  • hardware \/ software
  • laboratorio: prima panoramica di Hadoop

Sezione 2: HDFS

  • Design e architettura
  • concetti (scalabilità orizzontale, replica, località dei dati, consapevolezza della rack)
  • Daemon: Namenode, Secondary namenode, Data node
  • comunicazioni \/ battiti del cuore
  • integrità dei dati
  • percorso di lettura / scrittura
  • Namenode High Availability (HA), Federazione
  • laboratori: interazione con HDFS

Sezione 3: MapReduce

  • concetti e architettura
  • daemon (MRV1): jobtracker \/ tasktracker
  • fasi: driver, mapper, shuffle/sort, reducer
  • MapReduce Versione 1 e Versione 2 (YARN)
  • Interni di MapReduce
  • Introduzione al programma Java MapReduce
  • laboratori: esecuzione di un programma MapReduce di esempio

Sezione 4: Pig

  • Pig vs Java MapReduce
  • flusso del processo Pig
  • linguaggio Pig Latin
  • ETL con Pig
  • trasformazioni e join
  • funzioni definite dall'utente (UDF)
  • laboratori: scrittura di script Pig per l'analisi dei dati

Sezione 5: Hive

  • architettura e design
  • tipi di dati
  • sostegno SQL in Hive
  • creazione di tabelle Hive e query
  • partizioni
  • join
  • elaborazione del testo
  • laboratori: vari esercizi sull'elaborazione dei dati con Hive

Sezione 6: HBase

  • concetti e architettura
  • HBase vs RDBMS vs Cassandra
  • API Java di HBase
  • dati a serie temporali su HBase
  • design dello schema
  • laboratori: interazione con HBase utilizzando la shell; programmazione in API Java di HBase; esercizio di design dello schema

Requisiti

  • conoscenze di programmazione in Java (la maggior parte degli esercizi è in Java)
  • familiarità con l'ambiente Linux (essere in grado di navigare nella riga di comando di Linux, modificare file utilizzando vi / nano)

Ambiente del laboratorio

Installazione Zero : Non è necessario installare il software Hadoop sulle macchine degli studenti! Un cluster Hadoop funzionante sarà fornito agli studenti.

Gli studenti avranno bisogno di:

  • un client SSH (Linux e Mac hanno già client SSH, per Windows si raccomanda Putty)
  • un browser per accedere al cluster, Firefox è consigliato
 28 Ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (5)

Corsi in Arrivo

Categorie relative