Struttura del corso

  • Introduzione
    • Hadoop Storia, concetti
    • Ecosistema
    • Distribuzioni
    • Architettura di alto livello
    • Hadoop Miti
    • Hadoop Sfide (hardware / software)
    • Labs: discuti i tuoi Big Data progetti e problemi
  • Progettazione e installazione
    • Selezione del software, Hadoop distribuzioni
    • Dimensionamento del cluster, pianificazione della crescita
    • Selezione dell'hardware e della rete
    • Topologia rack
    • Installazione
    • Multi-tenancy
    • Struttura delle directory, registri
    • Benchmarking
    • Labs: installazione del cluster, esecuzione di benchmark delle prestazioni
  • Operazioni HDFS
    • Concetti (scalabilità orizzontale, replica, localizzazione dei dati, riconoscimento dei rack)
    • Nodi e daemon (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Monitoraggio dello stato di salute
    • Amministrazione da riga di comando e basata su browser
    • Aggiunta di spazio di archiviazione, sostituzione di unità difettose
    • Labs: familiarizzare con le righe di comando HDFS
  • Inserimento dei dati
    • Flume per l'inserimento di log e altri dati in HDFS
    • Sqoop per l'importazione da SQL database a HDFS, nonché per l'esportazione in SQL
    • Hadoop Data warehousing con Hive
    • Copia di dati tra cluster (distcp)
    • Utilizzo di S3 come complementare a HDFS
    • Best practice e architetture per l'inserimento dei dati
    • Labs: configurazione e utilizzo di Flume, lo stesso per Sqoop
  • Operazioni e amministrazione di MapReduce
    • Calcolo parallelo prima della produzione mapreduce: confronto tra l'amministrazione HPC e l'amministrazione Hadoop
    • MapReduce carichi del cluster
    • Nodi e demoni (JobTracker, TaskTracker)
    • Procedura dettagliata dell'interfaccia utente di MapReduce
    • Configurazione di Mapreduce
    • Configurazione del processo
    • Ottimizzazione di MapReduce
    • MR a prova di errore: cosa dire ai tuoi programmatori
    • Labs: esecuzione di esempi di MapReduce
  • YARN: nuova architettura e nuove funzionalità
    • Obiettivi di progettazione e architettura di implementazione di YARN
    • Nuovi attori: ResourceManager, NodeManager, Application Master
    • Installazione di YARN
    • Programmazione dei processi in YARN
    • Lab: esaminare la pianificazione dei processi
  • Argomenti avanzati
    • Monitoraggio dell'hardware
    • Monitoraggio dei cluster
    • Aggiunta e rimozione di server, aggiornamento Hadoop
    • Pianificazione del backup, del ripristino e della continuità operativa
    • Flussi di lavoro dei processi Oozie
    • Hadoop Alta disponibilità (HA)
    • Hadoop Federazione
    • Protezione del cluster con Kerberos
    • Labs: configurare il monitoraggio
  • Tracce opzionali
    • Cloudera Manager per l'amministrazione, il monitoraggio e le attività di routine dei cluster; installazione, uso. In questo percorso, tutti gli esercizi e i laboratori vengono eseguiti all'interno dell'ambiente di distribuzione Cloudera (CDH5)
    • Ambari per l'amministrazione dei cluster, il monitoraggio e le attività di routine; installazione, uso. In questo percorso, tutti gli esercizi e i laboratori vengono eseguiti all'interno del gestore cluster Ambari e della piattaforma dati Hortonworks (HDP 2.0)

Requisiti

  • A proprio agio con l'amministrazione di sistema di base Linux
  • Competenze di base per lo scripting

Non è richiesta la conoscenza di Hadoop e del Calcolo Distribuito, ma verrà introdotta e spiegata nel corso di studi.

Ambiente di laboratorio

Zero installazione: non è necessario installare il software hadoop sui computer degli studenti! Verrà fornito un cluster hadoop funzionante per gli studenti.

Gli studenti avranno bisogno di quanto segue

  • un client SSH (Linux e Mac hanno già client ssh, per Windows si consiglia Putty )
  • un browser per accedere al cluster. Si consiglia il browser Firefox con l'estensione FoxyProxy installata
 21 ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (5)

Corsi in Arrivo

Categorie relative