Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Struttura del corso
Modulo 1. Introduzione a Hadoop
- Il Hadoop file system distribuito (HDFS)
- Il percorso di lettura e il percorso di scrittura
- Gestione dei metadati del file system
- Il Namenode e il Datanode
- L'alta disponibilità di Namenode
- Federazione dei nodi dei nomi
- Strumenti da riga di comando
- Informazioni sul supporto REST
Modulo 2. Introduzione a MapReduce
- Analisi dei dati con Hadoop
- Mappa e riduci pattern
- Java Riduci mappa
- Scalabilità orizzontale
- Flusso di dati
- Sviluppo di funzioni combinatore
- Esecuzione di un processo MapReduce distribuito
Modulo 3. Pianificazione di un cluster Hadoop
- Scelta di una distribuzione e di una versione di Hadoop
- Versioni e caratteristiche
- Selezione dell'hardware
- Selezione dell'hardware master e worker
- Dimensionamento del cluster
- Selezione e preparazione del sistema operativo
- Layout di distribuzione
- Impostazione di utenti, gruppi e privilegi
- Configurazione del disco
- Progettazione di reti
Modulo 4. Installazione e configurazione
- Installazione di Hadoop
- Configurazione: una panoramica
- I file di configurazione di Hadoop XML
- Variabili d'ambiente e script di shell
- Configurazione della registrazione
- Gestione di HDFS
- Ottimizzazione e messa a punto
- Formattazione del nodo dei nomi
- Creazione di una directory /tmp
- Pensare all'alta disponibilità di Namenode
- Le opzioni di scherma
- Configurazione automatica del failover
- Formattare e eseguire il bootstrap dei nodi dei nomi
- Federazione dei nodi dei nomi
Modulo 5. Informazioni su Hadoop I/O
- Integrità dei dati in HDFS
- Informazioni sui codec
- Compressione e suddivisione dell'input
- Utilizzo della compressione in MapReduce
- Meccanismo di serializzazione
- Strutture dati basate su file
- Il formato SequenceFile
- Altri formati di file e formati orientati alle colonne
Modulo 6. Sviluppo di un'applicazione MapReduce
- L'APIdi configurazione
- Impostazione dell'ambiente di sviluppo
- Gestione della configurazione
- GenericOptionsParser, Tool e ToolRunner
- Scrittura di uno unit test con MRUnit
- Il mappatore e il riduttore
- Esecuzione locale sui datidi test
- Test del driver
- Esecuzione in un cluster
- Impacchettamento e avvio di un processo
- L'interfaccia utente Web di MapReduce
- Ottimizzazione di un processo
Modulo 7. Identità, autenticazione e autorizzazione
- Gestione dell'identità
- Kerberos e Hadoop
- Informazioni sull'autorizzazione
Modulo 8. Risorsa Management
- Che cos'è la risorsa Management?
- Quote HDFS
- Utilità di pianificazione MapReduce
- Anatomia dell'esecuzione di un'applicazione YARN
- Richieste di risorse
- Durata dell'applicazione
- YARN a confronto con MapReduce 1
- Programmazione in YARN
- Opzioni dell'utilità di pianificazione
- Configurazione dell'utilità di pianificazione della capacità
- Configurazione di Fair Scheduler
- Programmazione ritardata
- Equità delle risorse dominante
Modulo 9. Tipi e formati di MapReduce
- Tipi di MapReduce
- Processo MapReduce predefinito
- Definizione dei formati di input
- Gestione delle suddivisioni e dei record di input
- Input di testo e input binario
- Gestione di più input
- Database Ingresso (e uscita)
- Formati di output
- Output di testo e output binario
- Gestione di più uscite
- L'uscita Database
Modulo 10. Utilizzo delle funzioni di MapReduce
- Utilizzo dei contatori
- Lettura di contatori integrati
- Contatori Java definiti dall'utente
- Informazioni sull'ordinamento
- Utilizzo della cache distribuita
Modulo 11. Manutenzione e risoluzione dei problemi del cluster
- Gestione Hadoop dei processi
- Avvio e arresto di processi con script di inizializzazione
- Avvio e arresto manuale dei processi
- Attività di manutenzione HDFS
- Aggiunta di un Datanode
- Rimozione delle autorizzazioni di un Datanode
- Controllare l'integrità del filesystem con fsck
- Bilanciamento dei dati dei blocchi HDFS
- Gestione di un disco guasto
- Attività di manutenzioneMapReduce
- Terminazione di un processo MapReduce
- Terminazione di un'attività MapReduce
- Gestione dell'esaurimento delle risorse
Modulo 12. Monitoraggio
- Le metriche disponibili Hadoop
- Il ruolo di SNMP
- Monitoraggio dello stato di salute
- Controlli a livello di host
- Controlli HDFS
- Controlli MapReduce
Modulo 13. Backup e ripristino
- Backup dei dati
- Copia distribuita (distcp)
- Inserimento di dati paralleli
- Metadati del nodo dei nomi
21 ore
Recensioni (1)
The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.