Grazie per aver inviato la tua richiesta! Uno dei nostri team membri ti contatterà a breve.
Grazie per aver inviato il tuo prenotazione! Uno dei nostri team membri ti contatterà a breve.
Struttura del corso
Sezione 1: Introduzione a Hadoop
- Storia di Hadoop, concetti
- ecosistema
- distribuzioni
- architettura ad alto livello
- miti su Hadoop
- sfide di Hadoop
- hardware \/ software
- laboratorio: prima panoramica di Hadoop
Sezione 2: HDFS
- Design e architettura
- concetti (scalabilità orizzontale, replica, località dei dati, consapevolezza della rack)
- Daemon: Namenode, Secondary namenode, Data node
- comunicazioni \/ battiti del cuore
- integrità dei dati
- percorso di lettura / scrittura
- Namenode High Availability (HA), Federazione
- laboratori: interazione con HDFS
Sezione 3: MapReduce
- concetti e architettura
- daemon (MRV1): jobtracker \/ tasktracker
- fasi: driver, mapper, shuffle/sort, reducer
- MapReduce Versione 1 e Versione 2 (YARN)
- Interni di MapReduce
- Introduzione al programma Java MapReduce
- laboratori: esecuzione di un programma MapReduce di esempio
Sezione 4: Pig
- Pig vs Java MapReduce
- flusso del processo Pig
- linguaggio Pig Latin
- ETL con Pig
- trasformazioni e join
- funzioni definite dall'utente (UDF)
- laboratori: scrittura di script Pig per l'analisi dei dati
Sezione 5: Hive
- architettura e design
- tipi di dati
- sostegno SQL in Hive
- creazione di tabelle Hive e query
- partizioni
- join
- elaborazione del testo
- laboratori: vari esercizi sull'elaborazione dei dati con Hive
Sezione 6: HBase
- concetti e architettura
- HBase vs RDBMS vs Cassandra
- API Java di HBase
- dati a serie temporali su HBase
- design dello schema
- laboratori: interazione con HBase utilizzando la shell; programmazione in API Java di HBase; esercizio di design dello schema
Requisiti
- conoscenze di programmazione in Java (la maggior parte degli esercizi è in Java)
- familiarità con l'ambiente Linux (essere in grado di navigare nella riga di comando di Linux, modificare file utilizzando vi / nano)
Ambiente del laboratorio
Installazione Zero : Non è necessario installare il software Hadoop sulle macchine degli studenti! Un cluster Hadoop funzionante sarà fornito agli studenti.
Gli studenti avranno bisogno di:
- un client SSH (Linux e Mac hanno già client SSH, per Windows si raccomanda Putty)
- un browser per accedere al cluster, Firefox è consigliato
28 ore
Recensioni (1)
Esercizi pratici. La classe sarebbe dovuta durare 5 giorni, ma i 3 giorni sono stati sufficienti per chiarire molte delle domande che avevo lavorando con NiFi.
James - BHG Financial
Corso - Apache NiFi for Administrators
Traduzione automatica