Struttura del corso
- Introduzione
- Hadoop Storia, concetti
- Ecosistema
- Distribuzioni
- Architettura di alto livello
- Hadoop Miti
- Hadoop Sfide (hardware / software)
- Labs: discuti i tuoi Big Data progetti e problemi
- Progettazione e installazione
- Selezione del software, Hadoop distribuzioni
- Dimensionamento del cluster, pianificazione della crescita
- Selezione dell'hardware e della rete
- Topologia rack
- Installazione
- Multi-tenancy
- Struttura delle directory, registri
- Benchmarking
- Labs: installazione del cluster, esecuzione di benchmark delle prestazioni
- Operazioni HDFS
- Concetti (scalabilità orizzontale, replica, localizzazione dei dati, riconoscimento dei rack)
- Nodi e daemon (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitoraggio dello stato di salute
- Amministrazione da riga di comando e basata su browser
- Aggiunta di spazio di archiviazione, sostituzione di unità difettose
- Labs: familiarizzare con le righe di comando HDFS
- Inserimento dei dati
- Flume per l'inserimento di log e altri dati in HDFS
- Sqoop per l'importazione da SQL database a HDFS, nonché per l'esportazione in SQL
- Hadoop Data warehousing con Hive
- Copia di dati tra cluster (distcp)
- Utilizzo di S3 come complementare a HDFS
- Best practice e architetture per l'inserimento dei dati
- Labs: configurazione e utilizzo di Flume, lo stesso per Sqoop
- Operazioni e amministrazione di MapReduce
- Calcolo parallelo prima della produzione mapreduce: confronto tra l'amministrazione HPC e l'amministrazione Hadoop
- MapReduce carichi del cluster
- Nodi e demoni (JobTracker, TaskTracker)
- Procedura dettagliata dell'interfaccia utente di MapReduce
- Configurazione di Mapreduce
- Configurazione del processo
- Ottimizzazione di MapReduce
- MR a prova di errore: cosa dire ai tuoi programmatori
- Labs: esecuzione di esempi di MapReduce
- YARN: nuova architettura e nuove funzionalità
- Obiettivi di progettazione e architettura di implementazione di YARN
- Nuovi attori: ResourceManager, NodeManager, Application Master
- Installazione di YARN
- Programmazione dei processi in YARN
- Lab: esaminare la pianificazione dei processi
- Argomenti avanzati
- Monitoraggio dell'hardware
- Monitoraggio dei cluster
- Aggiunta e rimozione di server, aggiornamento Hadoop
- Pianificazione del backup, del ripristino e della continuità operativa
- Flussi di lavoro dei processi Oozie
- Hadoop Alta disponibilità (HA)
- Hadoop Federazione
- Protezione del cluster con Kerberos
- Labs: configurare il monitoraggio
- Tracce opzionali
- Cloudera Manager per l'amministrazione, il monitoraggio e le attività di routine dei cluster; installazione, uso. In questo percorso, tutti gli esercizi e i laboratori vengono eseguiti all'interno dell'ambiente di distribuzione Cloudera (CDH5)
- Ambari per l'amministrazione dei cluster, il monitoraggio e le attività di routine; installazione, uso. In questo percorso, tutti gli esercizi e i laboratori vengono eseguiti all'interno del gestore cluster Ambari e della piattaforma dati Hortonworks (HDP 2.0)
Requisiti
- A proprio agio con l'amministrazione di sistema di base Linux
- Competenze di base per lo scripting
Non è richiesta la conoscenza di Hadoop e del Calcolo Distribuito, ma verrà introdotta e spiegata nel corso di studi.
Ambiente di laboratorio
Zero installazione: non è necessario installare il software hadoop sui computer degli studenti! Verrà fornito un cluster hadoop funzionante per gli studenti.
Gli studenti avranno bisogno di quanto segue
- un client SSH (Linux e Mac hanno già client ssh, per Windows si consiglia Putty )
- un browser per accedere al cluster. Si consiglia il browser Firefox con l'estensione FoxyProxy installata
Recensioni (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Corso - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Corso - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Corso - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Corso - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay