Struttura del corso

Modulo 1. Introduzione a Hadoop

  • Il Hadoop file system distribuito (HDFS)
  • Il percorso di lettura e il percorso di scrittura
  • Gestione dei metadati del file system
  • Il Namenode e il Datanode
  • L'alta disponibilità di Namenode
  • Federazione dei nodi dei nomi
  • Strumenti da riga di comando
  • Informazioni sul supporto REST

Modulo 2. Introduzione a MapReduce

  • Analisi dei dati con Hadoop
  • Mappa e riduci pattern
  • Java Riduci mappa
  • Scalabilità orizzontale
  • Flusso di dati
  • Sviluppo di funzioni combinatore
  • Esecuzione di un processo MapReduce distribuito

Modulo 3. Pianificazione di un cluster Hadoop

  • Scelta di una distribuzione e di una versione di Hadoop
  • Versioni e caratteristiche
  • Selezione dell'hardware
  • Selezione dell'hardware master e worker
  • Dimensionamento del cluster
  • Selezione e preparazione del sistema operativo
  • Layout di distribuzione
  • Impostazione di utenti, gruppi e privilegi
  • Configurazione del disco
  • Progettazione di reti

Modulo 4. Installazione e configurazione

  • Installazione di Hadoop
  • Configurazione: una panoramica
  • I file di configurazione di Hadoop XML
  • Variabili d'ambiente e script di shell
  • Configurazione della registrazione
  • Gestione di HDFS
  • Ottimizzazione e messa a punto
  • Formattazione del nodo dei nomi
  • Creazione di una directory /tmp
  • Pensare all'alta disponibilità di Namenode
  • Le opzioni di scherma
  • Configurazione automatica del failover
  • Formattare e eseguire il bootstrap dei nodi dei nomi
  • Federazione dei nodi dei nomi

Modulo 5. Informazioni su Hadoop I/O

  • Integrità dei dati in HDFS
  • Informazioni sui codec
  • Compressione e suddivisione dell'input
  • Utilizzo della compressione in MapReduce
  • Meccanismo di serializzazione
  • Strutture dati basate su file
  • Il formato SequenceFile
  • Altri formati di file e formati orientati alle colonne

Modulo 6. Sviluppo di un'applicazione MapReduce

  • L'APIdi configurazione
  • Impostazione dell'ambiente di sviluppo
  • Gestione della configurazione
  • GenericOptionsParser, Tool e ToolRunner
  • Scrittura di uno unit test con MRUnit
  • Il mappatore e il riduttore
  • Esecuzione locale sui datidi test
  • Test del driver
  • Esecuzione in un cluster
  • Impacchettamento e avvio di un processo
  • L'interfaccia utente Web di MapReduce
  • Ottimizzazione di un processo

Modulo 7. Identità, autenticazione e autorizzazione

  • Gestione dell'identità
  • Kerberos e Hadoop
  • Informazioni sull'autorizzazione

Modulo 8. Risorsa Management

  • Che cos'è la risorsa Management?
  • Quote HDFS
  • Utilità di pianificazione MapReduce
  • Anatomia dell'esecuzione di un'applicazione YARN
  • Richieste di risorse
  • Durata dell'applicazione
  • YARN a confronto con MapReduce 1
  • Programmazione in YARN
  • Opzioni dell'utilità di pianificazione
  • Configurazione dell'utilità di pianificazione della capacità
  • Configurazione di Fair Scheduler
  • Programmazione ritardata
  • Equità delle risorse dominante

Modulo 9. Tipi e formati di MapReduce

  • Tipi di MapReduce
  • Processo MapReduce predefinito
  • Definizione dei formati di input
  • Gestione delle suddivisioni e dei record di input
  • Input di testo e input binario
  • Gestione di più input
  • Database Ingresso (e uscita)
  • Formati di output
  • Output di testo e output binario
  • Gestione di più uscite
  • L'uscita Database

Modulo 10. Utilizzo delle funzioni di MapReduce

  • Utilizzo dei contatori
  • Lettura di contatori integrati
  • Contatori Java definiti dall'utente
  • Informazioni sull'ordinamento
  • Utilizzo della cache distribuita

Modulo 11. Manutenzione e risoluzione dei problemi del cluster

  • Gestione Hadoop dei processi
  • Avvio e arresto di processi con script di inizializzazione
  • Avvio e arresto manuale dei processi
  • Attività di manutenzione HDFS
  • Aggiunta di un Datanode
  • Rimozione delle autorizzazioni di un Datanode
  • Controllare l'integrità del filesystem con fsck
  • Bilanciamento dei dati dei blocchi HDFS
  • Gestione di un disco guasto
  • Attività di manutenzioneMapReduce
  • Terminazione di un processo MapReduce
  • Terminazione di un'attività MapReduce
  • Gestione dell'esaurimento delle risorse

Modulo 12. Monitoraggio

  • Le metriche disponibili Hadoop
  • Il ruolo di SNMP
  • Monitoraggio dello stato di salute
  • Controlli a livello di host
  • Controlli HDFS
  • Controlli MapReduce

Modulo 13. Backup e ripristino

  • Backup dei dati
  • Copia distribuita (distcp)
  • Inserimento di dati paralleli
  • Metadati del nodo dei nomi
 21 ore

Numero di Partecipanti



Prezzo per Partecipante

Recensioni (1)

Corsi relativi

Categorie relative