Struttura del corso
- Introduzione
- Hadoop storia, concetti
- Ecosistema
- Distribuzioni
- Architettura di alto livello
- Hadoop miti
- Hadoop sfide (hardware/software)
- Laboratori: discutere dei vostri Big Data progetti e problemi
- Pianificazione ed installazione
- Selezionare il software, Hadoop distribuzioni
- Dimensionamento del cluster, pianificazione per lo sviluppo
- Selezionare hardware e rete
- Topologia dello rack
- Installazione
- Multi-tenancy
- Struttura delle directory, log
- Benchmarking
- Laboratori: installazione del cluster, esecuzione di benchmark di prestazioni
- Operazioni HDFS
- Concetti (scaling orizzontale, replica, località dei dati, awareness dello rack)
- Nodi e demoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitoraggio della salute
- Amministrazione da riga di comando ed attraverso il browser
- Aggiungere storage, sostituire unità difettose
- Laboratori: familiarizzazione con i comandi HDFS dalla riga di comando
- Ingestione dei dati
- Flume per l'ingestione dei log e altri dati in HDFS
- Sqoop per importare da SQL database a HDFS, nonché esportare nuovamente a SQL
- Hadoop data warehousing con Hive
- Copiare dati tra cluster (distcp)
- Utilizzo di S3 come complemento a HDFS
- Migliori pratiche e architetture per l'ingestione dei dati
- Laboratori: configurazione e utilizzo di Flume, lo stesso per Sqoop
- Operazioni MapReduce e amministrazione
- Calcolo parallelo prima di mapreduce: confrontare HPC vs Hadoop amministrazione
- Carichi del cluster MapReduce
- Nodi e demoni (JobTracker, TaskTracker)
- Passeggiata guidata dell'interfaccia di MapReduce
- Configurazione di MapReduce
- Configurazione dei job
- Ottimizzazione di MapReduce
- Fiducia in MR: cosa dire ai programmatori
- Laboratori: esecuzione degli esempi di MapReduce
- YARN: nuova architettura e nuove capacità
- Obiettivi e architettura di implementazione di YARN
- Nuovi attori: ResourceManager, NodeManager, Application Master
- Installazione di YARN
- Pianificazione dei lavori con YARN
- Laboratori: investigare la pianificazione del lavoro
- Argomenti avanzati
- Monitoraggio hardware
- Monitoraggio cluster
- Aggiungere e rimuovere server, aggiornamento Hadoop
- Backup, recupero e pianificazione della continuità aziendale
- Workflows Oozie job
- Hadoop alta disponibilità (HA)
- Hadoop Federazione
- Proteggere il cluster con Kerberos
- Laboratori: configurare il monitoraggio
- Tracciati opzionali
- Cloudera Manager per l'amministrazione, il monitoraggio e le attività quotidiane del cluster; installazione, utilizzo. In questo tracciato, tutti gli esercizi e laboratori sono eseguiti nell'ambiente di distribuzione Cloudera (CDH5)
- Ambari per l'amministrazione, il monitoraggio e le attività quotidiane del cluster; installazione, utilizzo. In questo tracciato, tutti gli esercizi e laboratori sono eseguiti all'interno del cluster manager Ambari e Hortonworks Data Platform (HDP 2.0)
Requisiti
- afferente alla base della gestione del sistema Linux
- competenze di base nella scripting
La conoscenza di Hadoop e del calcolo distribuito non è necessaria, ma verranno introdotti ed esplorati nel corso.
Ambiente di laboratorio
Zero Install : Non è necessario installare il software hadoop sulle macchine degli studenti! Viene fornito un cluster hadoop operativo per gli studenti.
Gli studenti avranno bisogno di quanto segue
- un client SSH (Linux e Mac hanno già client ssh, si consiglia Putty per Windows)
- un browser per accedere al cluster. Si raccomanda il browser Firefox con l'estensione FoxyProxy installata
Recensioni (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Corso - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Corso - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Corso - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Corso - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay