Struttura del corso
- Introduzione
- Hadoop Storia, Concetti
- Ecosistema
- Distribuzioni
- Architettura di alto livello
- Hadoop Miti
- Hadoop Sfide (hardware / software)
- Labs: discuti i tuoi progetti e problemi di Big Data
- Operazioni HDFS
- Concetti (scalabilità orizzontale, replica, localizzazione dei dati, consapevolezza dei rack)
- Nodi e daemon (NameNode, NameNode secondario, NameNode di standby HA, DataNode)
- Monitoraggio dello stato di salute
- Amministrazione da riga di comando e basata su browser
- Aggiunta di spazio di archiviazione, sostituzione di unità difettose
- Labs: acquisire familiarità con le righe di comando HDFS
- Operazioni e amministrazione di MapReduce
- Calcolo parallelo prima di mapreduce: confronto tra HPC e Hadoop amministrazione
- MapReduce i carichi del cluster
- Nodi e demoni (JobTracker, TaskTracker)
- Procedura dettagliata dell'interfaccia utente di MapReduce
- Configurazione di Mapreduce
- Configurazione del processo
- Ottimizzazione di MapReduce
- MR a prova di errore: cosa dire ai programmatori
- Labs: esempi di esecuzione di MapReduce
- Argomenti avanzati
- Monitoraggio dell'hardware
- Monitoraggio dei cluster
- Aggiunta e rimozione di server, aggiornamento Hadoop
- Pianificazione di backup, ripristino e continuità operativa
- Flussi di lavoro dei processi Oozie
- Hadoop disponibilità elevata (HA)
- Hadoop Federazione
- Protezione del cluster con Kerberos
- Labs: impostare il monitoraggio
Requisiti
- A proprio agio con l'amministrazione di sistema di base Linux
- Competenze di scripting di base
La conoscenza di Hadoop e del Calcolo Distribuito non è richiesta, ma sarà introdotta e spiegata nel corso.
Ambiente di laboratorio
Zero Install : Non è necessario installare il software hadoop sulle macchine degli studenti! Per gli studenti verrà fornito un cluster hadoop funzionante.
Gli studenti avranno bisogno di quanto segue
- un client SSH (Linux e Mac hanno già client ssh, per Windows Putty è consigliato)
- Un browser per accedere al cluster. Si consiglia il browser Firefox con l'estensione FoxyProxy installata
Recensioni (3)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Corso - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Corso - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay