Struttura del corso

Sezione 1: Introduzione a Hadoop

  • Storia e concetti di Hadoop
  • Eco sistema
  • Distribuzioni
  • Architettura a livello alto
  • Miti su Hadoop
  • Sfide relative a Hadoop
  • Hardware / Software
  • lab : primo sguardo ad Hadoop

Sezione 2: HDFS

  • Disseno e architettura
  • Cose (scalabilità orizzontale, replica, località dei dati, consapevolezza rack)
  • Daemon : Namenode, Secondary namenode, Data node
  • Comunicazioni / heart-beats
  • Integrità dei dati
  • Percorso di lettura/scrittura
  • Namenode Alta Disponibilità (HA), Federation
  • labs : Interazione con HDFS

Sezione 3: Map Reduce

  • Cose e architettura
  • daemon (MRV1) : jobtracker / tasktracker
  • Fasi : driver, mapper, shuffle/sort, reducer
  • Map Reduce Versione 1 e Versione 2 (YARN)
  • Mechanismi di Map Reduce
  • Introduzione a Java Map Reduce program
  • labs : Esecuzione di un programma di esempio MapReduce

Sezione 4: Pig

  • Pig vs java map reduce
  • Percorso del compito pig
  • Lingua pig latin
  • ETL con Pig
  • Trasformazioni e Join
  • Funzioni definite dall'utente (UDF)
  • labs : scrittura di script Pig per l'analisi dei dati

Sezione 5: Hive

  • Architettura e disegno
  • Tipi di dati
  • Suporta SQL in Hive
  • Criando tabelle Hive e interrogazione
  • Partizioni
  • Join
  • Elaborazione del testo
  • labs : vari labs sull'elaborazione dei dati con Hive

Sezione 6: HBase

  • Cose e architettura
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Dati di serie temporale su HBase
  • Progettazione dello schema
  • labs : Interazione con HBase usando shell; programmazione in HBase Java API ; esercizi di progettazione dello schema

Requisiti

  • familiarità con il linguaggio di programmazione Java (la maggior parte degli esercizi di programmazione sono in Java)
  • competenza nell'ambiente Linux (abilità per navigare la riga di comando Linux, modifica dei file usando vi / nano)

Ambiente di laboratorio

Zero Install : Non è necessario installare il software Hadoop sui computer degli studenti! Sarà fornito un cluster funzionante Hadoop per gli studenti.

Gli studenti avranno bisogno di quanto segue

  • un client SSH (Linux e Mac hanno già dei client SSH, per Windows si raccomanda Putty)
  • un browser per accedere al cluster, si raccomanda Firefox
 28 ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (5)

Corsi in Arrivo

Categorie relative