Struttura del corso
Sezione 1: Introduzione a Hadoop
- Storia di Hadoop, concetti
- ecosistema
- distribuzioni
- architettura ad alto livello
- miti su Hadoop
- sfide di Hadoop
- hardware \/ software
- laboratorio: prima panoramica di Hadoop
Sezione 2: HDFS
- Design e architettura
- concetti (scalabilità orizzontale, replica, località dei dati, consapevolezza della rack)
- Daemon: Namenode, Secondary namenode, Data node
- comunicazioni \/ battiti del cuore
- integrità dei dati
- percorso di lettura / scrittura
- Namenode High Availability (HA), Federazione
- laboratori: interazione con HDFS
Sezione 3: MapReduce
- concetti e architettura
- daemon (MRV1): jobtracker \/ tasktracker
- fasi: driver, mapper, shuffle/sort, reducer
- MapReduce Versione 1 e Versione 2 (YARN)
- Interni di MapReduce
- Introduzione al programma Java MapReduce
- laboratori: esecuzione di un programma MapReduce di esempio
Sezione 4: Pig
- Pig vs Java MapReduce
- flusso del processo Pig
- linguaggio Pig Latin
- ETL con Pig
- trasformazioni e join
- funzioni definite dall'utente (UDF)
- laboratori: scrittura di script Pig per l'analisi dei dati
Sezione 5: Hive
- architettura e design
- tipi di dati
- sostegno SQL in Hive
- creazione di tabelle Hive e query
- partizioni
- join
- elaborazione del testo
- laboratori: vari esercizi sull'elaborazione dei dati con Hive
Sezione 6: HBase
- concetti e architettura
- HBase vs RDBMS vs Cassandra
- API Java di HBase
- dati a serie temporali su HBase
- design dello schema
- laboratori: interazione con HBase utilizzando la shell; programmazione in API Java di HBase; esercizio di design dello schema
Requisiti
- conoscenze di programmazione in Java (la maggior parte degli esercizi è in Java)
- familiarità con l'ambiente Linux (essere in grado di navigare nella riga di comando di Linux, modificare file utilizzando vi / nano)
Ambiente del laboratorio
Installazione Zero : Non è necessario installare il software Hadoop sulle macchine degli studenti! Un cluster Hadoop funzionante sarà fornito agli studenti.
Gli studenti avranno bisogno di:
- un client SSH (Linux e Mac hanno già client SSH, per Windows si raccomanda Putty)
- un browser per accedere al cluster, Firefox è consigliato
Recensioni (5)
Gli esempi dal vivo
Ahmet Bolat - Accenture Industrial SS
Corso - Python, Spark, and Hadoop for Big Data
Traduzione automatica
Durante gli esercizi, James mi ha spiegato ogni passaggio nei dettagli ogni volta che mi bloccavo. Ero completamente nuovo di NiFi. Mi ha illustrato lo scopo reale di NiFi, inclusi i concetti di base come il software open source. Ha coperto ogni aspetto di NiFi, partendo dal livello principiante fino a quello sviluppatore.
Firdous Hashim Ali - MOD A BLOCK
Corso - Apache NiFi for Administrators
Traduzione automatica
Che ce l'avevo sin dall'inizio.
Peter Scales - CACI Ltd
Corso - Apache NiFi for Developers
Traduzione automatica
aspetti pratici dell'azione, ma anche la teoria è stata ben spiegata da Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Corso - Hadoop Administration on MapR
Traduzione automatica
La VM mi è piaciuta molto. L'insegnante era molto competente riguardo l'argomento, nonché altri argomenti, ed era molto gentile e amichevole. Mi è piaciuto il centro a Dubai.
Safar Alqahtani - Elm Information Security
Corso - Big Data Analytics in Health
Traduzione automatica