Grazie per aver inviato la tua richiesta! Uno dei nostri team membri ti contatterà a breve.
Grazie per aver inviato il tuo prenotazione! Uno dei nostri team membri ti contatterà a breve.
Struttura del corso
- Introduzione
- Hadoop storia, concetti
- Ecosistema
- Distribuzioni
- Architettura di alto livello
- Hadoop miti
- Hadoop sfide (hardware/software)
- Laboratori: discutere dei vostri Big Data progetti e problemi
- Pianificazione ed installazione
- Selezionare il software, Hadoop distribuzioni
- Dimensionamento del cluster, pianificazione per lo sviluppo
- Selezionare hardware e rete
- Topologia dello rack
- Installazione
- Multi-tenancy
- Struttura delle directory, log
- Benchmarking
- Laboratori: installazione del cluster, esecuzione di benchmark di prestazioni
- Operazioni HDFS
- Concetti (scaling orizzontale, replica, località dei dati, awareness dello rack)
- Nodi e demoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitoraggio della salute
- Amministrazione da riga di comando ed attraverso il browser
- Aggiungere storage, sostituire unità difettose
- Laboratori: familiarizzazione con i comandi HDFS dalla riga di comando
- Ingestione dei dati
- Flume per l'ingestione dei log e altri dati in HDFS
- Sqoop per importare da SQL database a HDFS, nonché esportare nuovamente a SQL
- Hadoop data warehousing con Hive
- Copiare dati tra cluster (distcp)
- Utilizzo di S3 come complemento a HDFS
- Migliori pratiche e architetture per l'ingestione dei dati
- Laboratori: configurazione e utilizzo di Flume, lo stesso per Sqoop
- Operazioni MapReduce e amministrazione
- Calcolo parallelo prima di mapreduce: confrontare HPC vs Hadoop amministrazione
- Carichi del cluster MapReduce
- Nodi e demoni (JobTracker, TaskTracker)
- Passeggiata guidata dell'interfaccia di MapReduce
- Configurazione di MapReduce
- Configurazione dei job
- Ottimizzazione di MapReduce
- Fiducia in MR: cosa dire ai programmatori
- Laboratori: esecuzione degli esempi di MapReduce
- YARN: nuova architettura e nuove capacità
- Obiettivi e architettura di implementazione di YARN
- Nuovi attori: ResourceManager, NodeManager, Application Master
- Installazione di YARN
- Pianificazione dei lavori con YARN
- Laboratori: investigare la pianificazione del lavoro
- Argomenti avanzati
- Monitoraggio hardware
- Monitoraggio cluster
- Aggiungere e rimuovere server, aggiornamento Hadoop
- Backup, recupero e pianificazione della continuità aziendale
- Workflows Oozie job
- Hadoop alta disponibilità (HA)
- Hadoop Federazione
- Proteggere il cluster con Kerberos
- Laboratori: configurare il monitoraggio
- Tracciati opzionali
- Cloudera Manager per l'amministrazione, il monitoraggio e le attività quotidiane del cluster; installazione, utilizzo. In questo tracciato, tutti gli esercizi e laboratori sono eseguiti nell'ambiente di distribuzione Cloudera (CDH5)
- Ambari per l'amministrazione, il monitoraggio e le attività quotidiane del cluster; installazione, utilizzo. In questo tracciato, tutti gli esercizi e laboratori sono eseguiti all'interno del cluster manager Ambari e Hortonworks Data Platform (HDP 2.0)
Requisiti
- afferente alla base della gestione del sistema Linux
- competenze di base nella scripting
La conoscenza di Hadoop e del calcolo distribuito non è necessaria, ma verranno introdotti ed esplorati nel corso.
Ambiente di laboratorio
Zero Install : Non è necessario installare il software hadoop sulle macchine degli studenti! Viene fornito un cluster hadoop operativo per gli studenti.
Gli studenti avranno bisogno di quanto segue
- un client SSH (Linux e Mac hanno già client ssh, si consiglia Putty per Windows)
- un browser per accedere al cluster. Si raccomanda il browser Firefox con l'estensione FoxyProxy installata
21 ore
Recensioni (1)
Esercizi pratici. La classe sarebbe dovuta durare 5 giorni, ma i 3 giorni sono stati sufficienti per chiarire molte delle domande che avevo lavorando con NiFi.
James - BHG Financial
Corso - Apache NiFi for Administrators
Traduzione automatica