Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Struttura del corso
1: HDFS (17%)
- Descrivere la funzione dei daemon di HDFS
- Descrivere il normale funzionamento di un cluster Apache Hadoop, sia nella fase di archiviazione che nel processo dei dati.
- Identificare le caratteristiche attuali dei sistemi di calcolo che motivano l'adozione di un sistema come Apache Hadoop.
- Classificare gli obiettivi principali del progetto HDFS
- Data una situazione, identificare il caso d'uso appropriato per la federazione di HDFS
- Identificare i componenti e i daemon di un cluster HDFS HA-Quorum
- Analizzare il ruolo della sicurezza di HDFS (Kerberos)
- Determinare la scelta migliore per la serializzazione dei dati in base a una situazione data
- Descrivere i percorsi di lettura e scrittura del file
- Identificare i comandi necessari per manipolare i file nell'interfaccia della Shell del sistema file Hadoop
2: YARN e MapReduce versione 2 (MRv2) (17%)
- Comprendere come l'aggiornamento di un cluster da Hadoop 1 a Hadoop 2 influenzi le impostazioni del cluster
- Comprendere come deployare MapReduce v2 (MRv2 / YARN), inclusi tutti i daemon YARN
- Comprendere la strategia di progettazione base per MapReduce v2 (MRv2)
- Determinare come YARN gestisce l'allocazione delle risorse
- Identificare il workflow del lavoro di MapReduce che si esegue su YARN
- Determinare quali file devono essere modificati e in quale modo per migrare un cluster da MapReduce versione 1 (MRv1) a MapReduce versione 2 (MRv2) che si eseguono su YARN.
3: Pianificazione del Cluster Hadoop (16%)
- Principali punti da considerare nella scelta dell'hardware e dei sistemi operativi per ospitare un cluster Apache Hadoop.
- Analizzare le scelte nell'elezione di un sistema operativo
- Comprendere la regolazione del kernel e lo scambio della memoria su disco
- Data una situazione e un modello di carico di lavoro, identificare una configurazione hardware appropriata per la situazione
- Data una situazione, determinare i componenti dell'ecosistema del proprio cluster necessari per soddisfare l'SLA
- Dimensionamento del cluster: data una situazione e una frequenza di esecuzione, identificare le specifiche del carico di lavoro, inclusa CPU, memoria, archiviazione, I/O del disco
- Dimensionamento e configurazione del disco, incluso JBOD rispetto a RAID, SANs, virtualizzazione e requisiti di dimensionamento del disco in un cluster
- Topologie di rete: comprendere l'utilizzo della rete in Hadoop (per sia HDFS che MapReduce) e proporre o identificare i componenti chiave del design della rete per una situazione data
4: Installazione ed Amministrazione del Cluster Hadoop (25%)
- Data una situazione, identificare come il cluster gestirà i fallimenti del disco e della macchina
- Analizzare la configurazione dei log e il formato del file di configurazione dei log
- Comprendere le basi delle metriche e del monitoraggio della salute del cluster Hadoop
- Identificare la funzione e lo scopo degli strumenti disponibili per il monitoraggio del cluster
- Essere in grado di installare tutti i componenti dell'ecosistema in CDH 5, inclusi (ma non limitati a): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive e Pig
- Identificare la funzione e lo scopo degli strumenti disponibili per la gestione del sistema di file Apache Hadoop
5: Gestione delle Risorse (10%)
- Comprendere gli obiettivi progettuali generali di ciascuno dei scheduler di Hadoop
- Data una situazione, determinare come lo Scheduler FIFO alloca le risorse del cluster
- Data una situazione, determinare come lo Scheduler Fair alloca le risorse del cluster su YARN
- Data una situazione, determinare come lo Scheduler Capacity alloca le risorse del cluster
6: Monitoraggio e Logging (15%)
- Comprendere le funzioni ed i caratteristiche delle capacità di raccolta delle metriche di Hadoop
- Analizzare le interfacce Web NameNode e JobTracker
- Comprendere come monitorare i daemon del cluster
- Identificare ed il monitoraggio dell'uso della CPU sui nodi master
- Descrivere come monitorare l'allocazione dello scambio e della memoria su tutti i nodi
- Identificare come visualizzare e gestire i file di log di Hadoop
- Interpretare un file di log
Requisiti
- Competenze di amministrazione base Linux
- Competenze di programmazione base
35 ore
Recensioni (3)
I genuinely enjoyed the many hands-on sessions.
Jacek Pieczatka
Corso - Administrator Training for Apache Hadoop
I genuinely enjoyed the big competences of Trainer.
Grzegorz Gorski
Corso - Administrator Training for Apache Hadoop
I mostly liked the trainer giving real live Examples.