Struttura del corso

Sezione 1: Introduzione a Hadoop

  • Storia e concetti di Hadoop
  • Ecosistema
  • Distribuzioni
  • Architettura di alto livello
  • Miti su Hadoop
  • Sfide di Hadoop
  • Hardware / Software
  • lab : primo sguardo a Hadoop

Sezione 2: HDFS

  • Progettazione e architettura
  • Concetti (scaling orizzontale, replica, località dei dati, awareness rack)
  • Demoni : Namenode, Secondary namenode, Data node
  • Comunicazioni / heartbeat
  • Integrità dei dati
  • Percorso di lettura/scrittura
  • Namenode High Availability (HA), Federation
  • labs : Interazione con HDFS

Sezione 3 : Mappa Riduci

  • Concetti e architettura
  • demoni (MRV1) : jobtracker / tasktracker
  • Fasi : Driver, Mappatore, Mescolamento/Ordinamento, Riduttore
  • Riduzione mappa versione 1 e versione 2 (YARN)
  • Componenti interni di Map Reduce
  • Introduzione al programma Map Reduce Java
  • labs : Esecuzione di un programma MapReduce di esempio

Sezione 4 : Suini

  • Riduzione della mappa di Pig vs Java
  • flusso di lavoro suino
  • maiale lingua latina
  • ETL con maiale
  • Trasformazioni e join
  • Funzioni definite dall'utente (UDF)
  • labs : scrittura di script Pig per analizzare i dati

Sezione 5: Hive

  • Architettura e design
  • Tipi di dati
  • SQL Supporto in Hive
  • Creazione di tabelle Hive ed esecuzione di query
  • Partizioni
  • Unisce
  • Elaborazione del testo
  • Labs : Vari laboratori sull'elaborazione dei dati con Hive

Sezione 6: HBasi

  • Concetti e architettura
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Dati di serie temporali su HBase
  • Progettazione dello schema
  • labs : Interazione con HBase usando shell;   programmazione in HBase Java API ; Esercizio di progettazione dello schema

Requisiti

  • Dimestichezza con il linguaggio di programmazione Java (la maggior parte degli esercizi di programmazione sono in Java)
  • Comodo in ambiente Linux (essere in grado di navigare Linux riga di comando, modificare i file utilizzando VI / Nano)

Ambiente di laboratorio

Nessuna installazione : Non è necessario installare il software Hadoop sui computer degli studenti! Sarà fornito un cluster operativo Hadoop per gli studenti.

Gli studenti avranno bisogno di quanto segue

  • un client SSH (Linux e Mac hanno già client ssh, per Windows si raccomanda Putty)
  • un browser per accedere al cluster, si raccomanda Firefox
 28 ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (5)

Corsi in Arrivo

Categorie relative