Struttura del corso

Sezione 1: Introduzione a Hadoop

  • Hadoop Storia, Concetti
  • SISTEMA ECOLOGICO
  • Distribuzioni
  • Architettura di alto livello
  • Miti di Hadoop
  • Sfide Hadoop
  • Hardware / Software
  • Laboratorio : Primo sguardo a Hadoop

Sezione 2: HDFS

  • Design e architettura
  • concetti (scalabilità orizzontale, replica, localizzazione dei dati, consapevolezza dei rack)
  • Demoni : Nodo dei nomi, Nodo dei nomi secondario,Nodo dei dati
  • Comunicazioni / Battiti cardiaci
  • Integrità dei dati
  • Percorso di lettura/scrittura
  • Namenode High Availability (HA), Federazione
  • labs : Interazione con HDFS

Sezione 3 : Riduci mappa

  • Concetti e architettura
  • demoni (MRV1) : jobtracker / tasktracker
  • Fasi : Driver, Mapper, Shuffle/Sort, Reducer
  • Riduci mappa versione 1 e versione 2 (YARN)
  • Componenti interni di Map Reduce
  • Introduzione al programma Java Map Reduce
  • labs : Esecuzione di un programma MapReduce di esempio

Sezione 4 : Suino

  • pig vs java mappa ridurre
  • Flusso di lavoro dei suini
  • maiale lingua latina
  • ETL con Maiale
  • Trasformazioni e join
  • Funzioni definite dall'utente (UDF)
  • labs: scrittura di script Pig per l'analisi dei dati

Sezione 5: Hive

  • Architettura e design
  • Tipi di dati
  • SQL supporto in Hive
  • Creazione di tabelle Hive e esecuzione di query
  • Partizioni
  • Unisce
  • Elaborazione del testo
  • laboratori : vari laboratori sull'elaborazione dei dati con Hive

Sezione 6: HBase

  • Concetti earchitettura
  • hbase contro RDBMS contro cassandra
  • HBase Java API
  • Dati delle serie temporali su HBase
  • Progettazione dello schema
  • labs: Interagire con HBase usando la shell; programmazione in HBase Java API ; Esercizio di progettazione dello schema

Requisiti

  • dimestichezza con il linguaggio di programmazione Java (la maggior parte degli esercizi di programmazione sono in java)
  • Comodo in Linux
  • ambiente (essere in grado di navigare Linux riga di comando, modificare i file usando vi / nano)

Ambiente di laboratorio

Zero Install : Non è necessario installare il software hadoop sulle macchine degli studenti! Per gli studenti verrà fornito un cluster hadoop funzionante.

Gli studenti avranno bisogno di quanto segue

  • un client SSH (Linux e Mac hanno già client ssh, per Windows Putty è consigliato)
  • Un browser per accedere al cluster. Consigliamo il browser Firefox
  28 ore
 

Numero di Partecipanti


Data Inizio

Data Fine


Le date sono soggette a disponibilità e si svolgono tra le 09:30 e le 16:30.
I corsi di formazione pubblici richiedono più di 5 partecipanti.

Recensioni (3)

Corsi relativi

Categorie relative