Struttura del corso

  • Introduzione
  • Hadoop Storia, Concetti
  • Ecosistema
  • Distribuzioni
  • Architettura di alto livello
  • Hadoop Miti
  • Hadoop Sfide (hardware / software)
  • Labs: discuti i tuoi progetti e problemi di Big Data
Progettazione e installazione Selezione del software, Hadoop distribuzioni Dimensionamento del cluster, pianificazione della crescita Selezione dell'hardware e della rete Topologia rack Installazione Multi-tenancy Struttura di directory, registri Benchmarking Labs: installazione di cluster, esecuzione di benchmark delle prestazioni
  • Operazioni HDFS
  • Concetti (scalabilità orizzontale, replica, localizzazione dei dati, consapevolezza dei rack)
  • Nodi e daemon (NameNode, NameNode secondario, NameNode di standby HA, DataNode)
  • Monitoraggio dello stato di salute
  • Amministrazione da riga di comando e basata su browser
  • Aggiunta di spazio di archiviazione, sostituzione di unità difettose
  • Labs: acquisire familiarità con le righe di comando HDFS
Inserimento dei dati Flume per log e altri dati inseriti in HDFS Sqoop per l'importazione da SQL database a HDFS, nonché per l'esportazione in SQL Data warehousing Hadoop con Hive Copia di dati tra cluster (distcp) Utilizzo di S3 come complemento a HDFS Best practice e architetture per l'inserimento dei dati Labs: configurazione e utilizzo di Flume, lo stesso per Sqoop
  • Operazioni e amministrazione di MapReduce
  • Calcolo parallelo prima di mapreduce: confronto tra HPC e Hadoop amministrazione
  • MapReduce i carichi del cluster
  • Nodi e demoni (JobTracker, TaskTracker)
  • Procedura dettagliata dell'interfaccia utente di MapReduce
  • Configurazione di Mapreduce
  • Configurazione del processo
  • Ottimizzazione di MapReduce
  • MR a prova di errore: cosa dire ai programmatori
  • Labs: esempi di esecuzione di MapReduce
YARN: nuova architettura e nuove funzionalità Obiettivi di progettazione e architettura di implementazione di YARN Nuovi attori: ResourceManager, NodeManager, Application Master Installazione di YARN Pianificazione dei processi in YARN Laboratori: analizzare la pianificazione dei processi
  • Argomenti avanzati
  • Monitoraggio dell'hardware
  • Monitoraggio dei cluster
  • Aggiunta e rimozione di server, aggiornamento Hadoop
  • Pianificazione di backup, ripristino e continuità operativa
  • Flussi di lavoro dei processi Oozie
  • Hadoop disponibilità elevata (HA)
  • Hadoop Federazione
  • Protezione del cluster con Kerberos
  • Labs: impostare il monitoraggio
Binari opzionali Cloudera Manager per l'amministrazione, il monitoraggio e le attività di routine dei cluster; installazione, uso. In questo percorso, tutti gli esercizi e i laboratori vengono eseguiti all'interno dell'ambiente di distribuzione Cloudera (CDH5) Ambari per l'amministrazione, il monitoraggio e le attività di routine del cluster; installazione, uso. In questo percorso, tutte le esercitazioni e i laboratori vengono eseguiti all'interno del gestore del cluster Ambari e della piattaforma dati Hortonworks (HDP 2.0)

Requisiti

  • A proprio agio con l'amministrazione di sistema di base Linux
  • Competenze di scripting di base

La conoscenza di Hadoop e del Calcolo Distribuito non è richiesta, ma sarà introdotta e spiegata nel corso.

Ambiente di laboratorio

Zero Install : Non è necessario installare il software hadoop sulle macchine degli studenti! Per gli studenti verrà fornito un cluster hadoop funzionante.

Gli studenti avranno bisogno di quanto segue

  • un client SSH (Linux e Mac hanno già client ssh, per Windows Putty è consigliato)
  • Un browser per accedere al cluster. Si consiglia il browser Firefox con l'estensione FoxyProxy installata
  21 ore
 

Numero di Partecipanti


Data Inizio

Data Fine


Le date sono soggette a disponibilità e si svolgono tra le 09:30 e le 16:30.
I corsi di formazione pubblici richiedono più di 5 partecipanti.

Recensioni (3)

Corsi relativi

Categorie relative