Grazie per aver inviato la tua richiesta! Uno dei nostri team membri ti contatterà a breve.
Grazie per aver inviato il tuo prenotazione! Uno dei nostri team membri ti contatterà a breve.
Struttura del corso
1: HDFS (17%)
- Descrivere la funzione dei daemon di HDFS
- Descrivere il normale funzionamento di un cluster Apache Hadoop, sia nella fase di archiviazione che nel processo dei dati.
- Identificare le caratteristiche attuali dei sistemi di calcolo che motivano l'adozione di un sistema come Apache Hadoop.
- Classificare gli obiettivi principali del progetto HDFS
- Data una situazione, identificare il caso d'uso appropriato per la federazione di HDFS
- Identificare i componenti e i daemon di un cluster HDFS HA-Quorum
- Analizzare il ruolo della sicurezza di HDFS (Kerberos)
- Determinare la scelta migliore per la serializzazione dei dati in base a una situazione data
- Descrivere i percorsi di lettura e scrittura del file
- Identificare i comandi necessari per manipolare i file nell'interfaccia della Shell del sistema file Hadoop
2: YARN e MapReduce versione 2 (MRv2) (17%)
- Comprendere come l'aggiornamento di un cluster da Hadoop 1 a Hadoop 2 influenzi le impostazioni del cluster
- Comprendere come deployare MapReduce v2 (MRv2 / YARN), inclusi tutti i daemon YARN
- Comprendere la strategia di progettazione base per MapReduce v2 (MRv2)
- Determinare come YARN gestisce l'allocazione delle risorse
- Identificare il workflow del lavoro di MapReduce che si esegue su YARN
- Determinare quali file devono essere modificati e in quale modo per migrare un cluster da MapReduce versione 1 (MRv1) a MapReduce versione 2 (MRv2) che si eseguono su YARN.
3: Pianificazione del Cluster Hadoop (16%)
- Principali punti da considerare nella scelta dell'hardware e dei sistemi operativi per ospitare un cluster Apache Hadoop.
- Analizzare le scelte nell'elezione di un sistema operativo
- Comprendere la regolazione del kernel e lo scambio della memoria su disco
- Data una situazione e un modello di carico di lavoro, identificare una configurazione hardware appropriata per la situazione
- Data una situazione, determinare i componenti dell'ecosistema del proprio cluster necessari per soddisfare l'SLA
- Dimensionamento del cluster: data una situazione e una frequenza di esecuzione, identificare le specifiche del carico di lavoro, inclusa CPU, memoria, archiviazione, I/O del disco
- Dimensionamento e configurazione del disco, incluso JBOD rispetto a RAID, SANs, virtualizzazione e requisiti di dimensionamento del disco in un cluster
- Topologie di rete: comprendere l'utilizzo della rete in Hadoop (per sia HDFS che MapReduce) e proporre o identificare i componenti chiave del design della rete per una situazione data
4: Installazione ed Amministrazione del Cluster Hadoop (25%)
- Data una situazione, identificare come il cluster gestirà i fallimenti del disco e della macchina
- Analizzare la configurazione dei log e il formato del file di configurazione dei log
- Comprendere le basi delle metriche e del monitoraggio della salute del cluster Hadoop
- Identificare la funzione e lo scopo degli strumenti disponibili per il monitoraggio del cluster
- Essere in grado di installare tutti i componenti dell'ecosistema in CDH 5, inclusi (ma non limitati a): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive e Pig
- Identificare la funzione e lo scopo degli strumenti disponibili per la gestione del sistema di file Apache Hadoop
5: Gestione delle Risorse (10%)
- Comprendere gli obiettivi progettuali generali di ciascuno dei scheduler di Hadoop
- Data una situazione, determinare come lo Scheduler FIFO alloca le risorse del cluster
- Data una situazione, determinare come lo Scheduler Fair alloca le risorse del cluster su YARN
- Data una situazione, determinare come lo Scheduler Capacity alloca le risorse del cluster
6: Monitoraggio e Logging (15%)
- Comprendere le funzioni ed i caratteristiche delle capacità di raccolta delle metriche di Hadoop
- Analizzare le interfacce Web NameNode e JobTracker
- Comprendere come monitorare i daemon del cluster
- Identificare ed il monitoraggio dell'uso della CPU sui nodi master
- Descrivere come monitorare l'allocazione dello scambio e della memoria su tutti i nodi
- Identificare come visualizzare e gestire i file di log di Hadoop
- Interpretare un file di log
Requisiti
- Competenze di amministrazione base Linux
- Competenze di programmazione base
35 Ore
Recensioni (3)
I genuinely enjoyed the many hands-on sessions.
Jacek Pieczatka
Corso - Administrator Training for Apache Hadoop
I genuinely enjoyed the big competences of Trainer.
Grzegorz Gorski
Corso - Administrator Training for Apache Hadoop
I mostly liked the trainer giving real live Examples.