Struttura del corso
- Introduzione
- Hadoop storia, concetti
- Ecosistema
- Distribuzioni
- Architettura di alto livello
- Hadoop miti
- Hadoop sfide (hardware/software)
- Laboratori: discutere dei vostri Big Data progetti e problemi
- Pianificazione ed installazione
- Selezionare il software, Hadoop distribuzioni
- Dimensionamento del cluster, pianificazione per lo sviluppo
- Selezionare hardware e rete
- Topologia dello rack
- Installazione
- Multi-tenancy
- Struttura delle directory, log
- Benchmarking
- Laboratori: installazione del cluster, esecuzione di benchmark di prestazioni
- Operazioni HDFS
- Concetti (scaling orizzontale, replica, località dei dati, awareness dello rack)
- Nodi e demoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitoraggio della salute
- Amministrazione da riga di comando ed attraverso il browser
- Aggiungere storage, sostituire unità difettose
- Laboratori: familiarizzazione con i comandi HDFS dalla riga di comando
- Ingestione dei dati
- Flume per l'ingestione dei log e altri dati in HDFS
- Sqoop per importare da SQL database a HDFS, nonché esportare nuovamente a SQL
- Hadoop data warehousing con Hive
- Copiare dati tra cluster (distcp)
- Utilizzo di S3 come complemento a HDFS
- Migliori pratiche e architetture per l'ingestione dei dati
- Laboratori: configurazione e utilizzo di Flume, lo stesso per Sqoop
- Operazioni MapReduce e amministrazione
- Calcolo parallelo prima di mapreduce: confrontare HPC vs Hadoop amministrazione
- Carichi del cluster MapReduce
- Nodi e demoni (JobTracker, TaskTracker)
- Passeggiata guidata dell'interfaccia di MapReduce
- Configurazione di MapReduce
- Configurazione dei job
- Ottimizzazione di MapReduce
- Fiducia in MR: cosa dire ai programmatori
- Laboratori: esecuzione degli esempi di MapReduce
- YARN: nuova architettura e nuove capacità
- Obiettivi e architettura di implementazione di YARN
- Nuovi attori: ResourceManager, NodeManager, Application Master
- Installazione di YARN
- Pianificazione dei lavori con YARN
- Laboratori: investigare la pianificazione del lavoro
- Argomenti avanzati
- Monitoraggio hardware
- Monitoraggio cluster
- Aggiungere e rimuovere server, aggiornamento Hadoop
- Backup, recupero e pianificazione della continuità aziendale
- Workflows Oozie job
- Hadoop alta disponibilità (HA)
- Hadoop Federazione
- Proteggere il cluster con Kerberos
- Laboratori: configurare il monitoraggio
- Tracciati opzionali
- Cloudera Manager per l'amministrazione, il monitoraggio e le attività quotidiane del cluster; installazione, utilizzo. In questo tracciato, tutti gli esercizi e laboratori sono eseguiti nell'ambiente di distribuzione Cloudera (CDH5)
- Ambari per l'amministrazione, il monitoraggio e le attività quotidiane del cluster; installazione, utilizzo. In questo tracciato, tutti gli esercizi e laboratori sono eseguiti all'interno del cluster manager Ambari e Hortonworks Data Platform (HDP 2.0)
Requisiti
- afferente alla base della gestione del sistema Linux
- competenze di base nella scripting
La conoscenza di Hadoop e del calcolo distribuito non è necessaria, ma verranno introdotti ed esplorati nel corso.
Ambiente di laboratorio
Zero Install : Non è necessario installare il software hadoop sulle macchine degli studenti! Viene fornito un cluster hadoop operativo per gli studenti.
Gli studenti avranno bisogno di quanto segue
- un client SSH (Linux e Mac hanno già client ssh, si consiglia Putty per Windows)
- un browser per accedere al cluster. Si raccomanda il browser Firefox con l'estensione FoxyProxy installata
Recensioni (5)
Gli esempi dal vivo
Ahmet Bolat - Accenture Industrial SS
Corso - Python, Spark, and Hadoop for Big Data
Traduzione automatica
Durante gli esercizi, James mi ha spiegato ogni passaggio nei dettagli ogni volta che mi bloccavo. Ero completamente nuovo di NiFi. Mi ha illustrato lo scopo reale di NiFi, inclusi i concetti di base come il software open source. Ha coperto ogni aspetto di NiFi, partendo dal livello principiante fino a quello sviluppatore.
Firdous Hashim Ali - MOD A BLOCK
Corso - Apache NiFi for Administrators
Traduzione automatica
Che ce l'avevo sin dall'inizio.
Peter Scales - CACI Ltd
Corso - Apache NiFi for Developers
Traduzione automatica
aspetti pratici dell'azione, ma anche la teoria è stata ben spiegata da Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Corso - Hadoop Administration on MapR
Traduzione automatica
La VM mi è piaciuta molto. L'insegnante era molto competente riguardo l'argomento, nonché altri argomenti, ed era molto gentile e amichevole. Mi è piaciuto il centro a Dubai.
Safar Alqahtani - Elm Information Security
Corso - Big Data Analytics in Health
Traduzione automatica