Struttura del corso

  • Introduzione
    • Hadoop storia, concetti
    • Ecosistema
    • Distribuzioni
    • Architettura di alto livello
    • Hadoop miti
    • Hadoop sfide (hardware/software)
    • Laboratori: discutere dei vostri Big Data progetti e problemi
  • Pianificazione ed installazione
    • Selezionare il software, Hadoop distribuzioni
    • Dimensionamento del cluster, pianificazione per lo sviluppo
    • Selezionare hardware e rete
    • Topologia dello rack
    • Installazione
    • Multi-tenancy
    • Struttura delle directory, log
    • Benchmarking
    • Laboratori: installazione del cluster, esecuzione di benchmark di prestazioni
  • Operazioni HDFS
    • Concetti (scaling orizzontale, replica, località dei dati, awareness dello rack)
    • Nodi e demoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Monitoraggio della salute
    • Amministrazione da riga di comando ed attraverso il browser
    • Aggiungere storage, sostituire unità difettose
    • Laboratori: familiarizzazione con i comandi HDFS dalla riga di comando
  • Ingestione dei dati
    • Flume per l'ingestione dei log e altri dati in HDFS
    • Sqoop per importare da SQL database a HDFS, nonché esportare nuovamente a SQL
    • Hadoop data warehousing con Hive
    • Copiare dati tra cluster (distcp)
    • Utilizzo di S3 come complemento a HDFS
    • Migliori pratiche e architetture per l'ingestione dei dati
    • Laboratori: configurazione e utilizzo di Flume, lo stesso per Sqoop
  • Operazioni MapReduce e amministrazione
    • Calcolo parallelo prima di mapreduce: confrontare HPC vs Hadoop amministrazione
    • Carichi del cluster MapReduce
    • Nodi e demoni (JobTracker, TaskTracker)
    • Passeggiata guidata dell'interfaccia di MapReduce
    • Configurazione di MapReduce
    • Configurazione dei job
    • Ottimizzazione di MapReduce
    • Fiducia in MR: cosa dire ai programmatori
    • Laboratori: esecuzione degli esempi di MapReduce
  • YARN: nuova architettura e nuove capacità
    • Obiettivi e architettura di implementazione di YARN
    • Nuovi attori: ResourceManager, NodeManager, Application Master
    • Installazione di YARN
    • Pianificazione dei lavori con YARN
    • Laboratori: investigare la pianificazione del lavoro
  • Argomenti avanzati
    • Monitoraggio hardware
    • Monitoraggio cluster
    • Aggiungere e rimuovere server, aggiornamento Hadoop
    • Backup, recupero e pianificazione della continuità aziendale
    • Workflows Oozie job
    • Hadoop alta disponibilità (HA)
    • Hadoop Federazione
    • Proteggere il cluster con Kerberos
    • Laboratori: configurare il monitoraggio
  • Tracciati opzionali
    • Cloudera Manager per l'amministrazione, il monitoraggio e le attività quotidiane del cluster; installazione, utilizzo. In questo tracciato, tutti gli esercizi e laboratori sono eseguiti nell'ambiente di distribuzione Cloudera (CDH5)
    • Ambari per l'amministrazione, il monitoraggio e le attività quotidiane del cluster; installazione, utilizzo. In questo tracciato, tutti gli esercizi e laboratori sono eseguiti all'interno del cluster manager Ambari e Hortonworks Data Platform (HDP 2.0)

Requisiti

  • afferente alla base della gestione del sistema Linux
  • competenze di base nella scripting

La conoscenza di Hadoop e del calcolo distribuito non è necessaria, ma verranno introdotti ed esplorati nel corso.

Ambiente di laboratorio

Zero Install : Non è necessario installare il software hadoop sulle macchine degli studenti! Viene fornito un cluster hadoop operativo per gli studenti.

Gli studenti avranno bisogno di quanto segue

  • un client SSH (Linux e Mac hanno già client ssh, si consiglia Putty per Windows)
  • un browser per accedere al cluster. Si raccomanda il browser Firefox con l'estensione FoxyProxy installata
 21 ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (5)

Corsi in Arrivo

Categorie relative