Grazie per aver inviato la vostra richiesta! Un membro del nostro team vi contatterà a breve.
Grazie per aver inviato la vostra prenotazione! Un membro del nostro team vi contatterà a breve.
Struttura del corso
1: HDFS (17%)
- Descrivere la funzione dei daemon HDFS
- Descrivere il normale funzionamento di un cluster Apache Hadoop, sia nell'archiviazione dei dati che nell'elaborazione dei dati.
- Identificare le caratteristiche attuali dei sistemi informatici che motivano un sistema come Apache Hadoop.
- Classificare gli obiettivi principali della progettazione HDFS
- Dato uno scenario, identificare il caso d'uso appropriato per la federazione HDFS
- Identificare i componenti e il daemon di un cluster HDFS HA-Quorum
- Analizzare il ruolo della sicurezza HDFS (Kerberos)
- Determinare la scelta di serializzazione dei dati migliore per un determinato scenario
- Descrivere i percorsi di lettura e scrittura dei file
- Identificare i comandi per manipolare i file nella shell del file system Hadoop
2: YARN e MapReduce versione 2 (MRv2) (17%)
- Informazioni su come l'aggiornamento di un cluster da Hadoop 1 a Hadoop 2 influisce sulle impostazioni del cluster
- Informazioni su come distribuire MapReduce v2 (MRv2/YARN), inclusi tutti i daemon YARN
- Comprendere la strategia di progettazione di base per MapReduce v2 (MRv2)
- Determinare il modo in cui YARN gestisce le allocazioni di risorse
- Identificare il flusso di lavoro del processo MapReduce in esecuzione su YARN
- Determinare quali file è necessario modificare e come eseguire la migrazione di un cluster da MapReduce versione 1 (MRv1) a MapReduce versione 2 (MRv2) in esecuzione su YARN.
3: Hadoop Pianificazione cluster (16%)
- Punti principali da considerare nella scelta dell'hardware e dei sistemi operativi per ospitare un cluster Apache Hadoop.
- Analizzare le scelte nella selezione di un sistema operativo
- Comprendere l'ottimizzazione del kernel e lo scambio di dischi
- In base a uno scenario e a un modello di carico di lavoro, identificare una configurazione hardware appropriata per lo scenario
- Dato uno scenario, determinare i componenti dell'ecosistema che il cluster deve eseguire per soddisfare il contratto di servizio
- Dimensionamento del cluster: in base a uno scenario e a una frequenza di esecuzione, identificare le specifiche per il carico di lavoro, tra cui CPU, memoria, storage, I/O del disco
- Dimensionamento e configurazione del disco, inclusi i requisiti JBOD rispetto a RAID, SAN, virtualizzazione e dimensionamento del disco in un cluster
- Topologie di rete: comprendere l'utilizzo della rete in Hadoop (sia per HDFS che per MapReduce) e proporre o identificare i componenti chiave di progettazione della rete per un determinato scenario
4: Hadoop Installazione e amministrazione del cluster (25%)
- Dato uno scenario, identificare il modo in cui il cluster gestirà gli errori del disco e del computer
- Analizzare una configurazione di registrazione e un formato di file di configurazione di registrazione
- Comprendere le nozioni di base delle metriche Hadoop e del monitoraggio dell'integrità del cluster
- Identificare la funzione e lo scopo degli strumenti disponibili per il monitoraggio dei cluster
- Essere in grado di installare tutti i componenti dell'ecosistema in CDH 5, inclusi (ma non limitati a): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive e Pig
- Identificare la funzione e lo scopo degli strumenti disponibili per la gestione del file system Apache Hadoop
5: Risorsa Management (10%)
- Comprendere gli obiettivi di progettazione generali di ciascuno degli Hadoop scheduler
- Dato uno scenario, determinare il modo in cui l'utilità di pianificazione FIFO alloca le risorse del cluster
- Dato uno scenario, determinare il modo in cui Fair Scheduler alloca le risorse del cluster in YARN
- Dato uno scenario, determinare il modo in cui l'Utilità di pianificazione della capacità alloca le risorse del cluster
6: Monitoraggio e registrazione (15%)
- Comprendere le funzioni e le caratteristiche delle capacità di raccolta delle metriche di Hadoop
- Analizzare le interfacce utente Web di NameNode e JobTracker
- Informazioni su come monitorare i daemon del cluster
- Identificare e monitorare l'utilizzo della CPU nei nodi master
- Descrivere come monitorare lo swap e l'allocazione della memoria su tutti i nodi
- Identificare come visualizzare e gestire i file di registro di Hadoop
- Interpretare un file di log
Requisiti
- Competenze amministrative di base Linux
- Competenze di programmazione di base
35 ore
Recensioni (3)
Many hands-on sessions.
Jacek Pieczątka
Corso - Administrator Training for Apache Hadoop
Big competences of Trainer
Grzegorz Gorski
Corso - Administrator Training for Apache Hadoop
Trainer give reallive Examples