Struttura del corso
Sezione 1: Introduzione a Hadoop
- Storia e concetti di Hadoop
- Eco sistema
- Distribuzioni
- Architettura a livello alto
- Miti su Hadoop
- Sfide relative a Hadoop
- Hardware / Software
- lab : primo sguardo ad Hadoop
Sezione 2: HDFS
- Disseno e architettura
- Cose (scalabilità orizzontale, replica, località dei dati, consapevolezza rack)
- Daemon : Namenode, Secondary namenode, Data node
- Comunicazioni / heart-beats
- Integrità dei dati
- Percorso di lettura/scrittura
- Namenode Alta Disponibilità (HA), Federation
- labs : Interazione con HDFS
Sezione 3: Map Reduce
- Cose e architettura
- daemon (MRV1) : jobtracker / tasktracker
- Fasi : driver, mapper, shuffle/sort, reducer
- Map Reduce Versione 1 e Versione 2 (YARN)
- Mechanismi di Map Reduce
- Introduzione a Java Map Reduce program
- labs : Esecuzione di un programma di esempio MapReduce
Sezione 4: Pig
- Pig vs java map reduce
- Percorso del compito pig
- Lingua pig latin
- ETL con Pig
- Trasformazioni e Join
- Funzioni definite dall'utente (UDF)
- labs : scrittura di script Pig per l'analisi dei dati
Sezione 5: Hive
- Architettura e disegno
- Tipi di dati
- Suporta SQL in Hive
- Criando tabelle Hive e interrogazione
- Partizioni
- Join
- Elaborazione del testo
- labs : vari labs sull'elaborazione dei dati con Hive
Sezione 6: HBase
- Cose e architettura
- HBase vs RDBMS vs Cassandra
- HBase Java API
- Dati di serie temporale su HBase
- Progettazione dello schema
- labs : Interazione con HBase usando shell; programmazione in HBase Java API ; esercizi di progettazione dello schema
Requisiti
- familiarità con il linguaggio di programmazione Java (la maggior parte degli esercizi di programmazione sono in Java)
- competenza nell'ambiente Linux (abilità per navigare la riga di comando Linux, modifica dei file usando vi / nano)
Ambiente di laboratorio
Zero Install : Non è necessario installare il software Hadoop sui computer degli studenti! Sarà fornito un cluster funzionante Hadoop per gli studenti.
Gli studenti avranno bisogno di quanto segue
- un client SSH (Linux e Mac hanno già dei client SSH, per Windows si raccomanda Putty)
- un browser per accedere al cluster, si raccomanda Firefox
Recensioni (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Corso - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Corso - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Corso - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Corso - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay