Struttura del corso
Sezione 1: Data Management in HDFS
- Vari formati di dati (JSON / Avro / Parquet)
- Schemi di compressione
- Mascheramento dei dati
- Labs : Analisi di diversi formati di dati; Abilitazione della compressione
Sezione 2: Maiale avanzato
- Funzioni definite dall'utente
- Introduzione alle librerie di maiali (ElephantBird / Data-Fu)
- Caricamento di dati strutturati complessi utilizzando Pig
- Accordatura del maiale
- Labs: scripting avanzato di pig, analisi di tipi di dati complessi
Sezione 3 : Avanzate Hive
- Funzioni definite dall'utente
- Tabelle compresse
- Hive Ottimizzazione delle prestazioni
- Labs : creazione di tabelle compresse, valutazione dei formati e della configurazione delle tabelle
Sezione 4 : HBasi avanzata
- Modellazione avanzata degli schemi
- Compressione
- Inserimento di dati in blocco
- Confronto tra tavoli larghi e tavoli alti
- HBase e Maiale
- HBasi e Hive
- Ottimizzazione delle prestazioni HBase
- Laboratori: sintonizzazione HBase; accedere ai dati HBase da Pig & Hive; Utilizzo di Phoenix per la modellazione dei dati
Requisiti
- Dimestichezza con il linguaggio di programmazione Java (la maggior parte degli esercizi di programmazione sono in Java)
- Comodo in ambiente Linux (essere in grado di navigare Linux riga di comando, modificare i file utilizzando VI / Nano)
- una conoscenza operativa di Hadoop.
Ambiente di laboratorio
Zero Install: Non è necessario installare il software hadoop sui computer degli studenti! Verrà fornito un cluster hadoop funzionante per gli studenti.
Gli studenti avranno bisogno di quanto segue
- un client SSH (Linux e Mac hanno già client ssh, per Windows si consiglia Putty )
- un browser per accedere al cluster. Si consiglia il browser Firefox
Recensioni (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Corso - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Corso - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Corso - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Corso - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay