Struttura del corso

1: HDFS (17%)

  • Descrivere la funzione dei daemon di HDFS
  • Descrivere il normale funzionamento di un cluster Apache Hadoop, sia nella fase di archiviazione che nel processo dei dati.
  • Identificare le caratteristiche attuali dei sistemi di calcolo che motivano l'adozione di un sistema come Apache Hadoop.
  • Classificare gli obiettivi principali del progetto HDFS
  • Data una situazione, identificare il caso d'uso appropriato per la federazione di HDFS
  • Identificare i componenti e i daemon di un cluster HDFS HA-Quorum
  • Analizzare il ruolo della sicurezza di HDFS (Kerberos)
  • Determinare la scelta migliore per la serializzazione dei dati in base a una situazione data
  • Descrivere i percorsi di lettura e scrittura del file
  • Identificare i comandi necessari per manipolare i file nell'interfaccia della Shell del sistema file Hadoop

2: YARN e MapReduce versione 2 (MRv2) (17%)

  • Comprendere come l'aggiornamento di un cluster da Hadoop 1 a Hadoop 2 influenzi le impostazioni del cluster
  • Comprendere come deployare MapReduce v2 (MRv2 / YARN), inclusi tutti i daemon YARN
  • Comprendere la strategia di progettazione base per MapReduce v2 (MRv2)
  • Determinare come YARN gestisce l'allocazione delle risorse
  • Identificare il workflow del lavoro di MapReduce che si esegue su YARN
  • Determinare quali file devono essere modificati e in quale modo per migrare un cluster da MapReduce versione 1 (MRv1) a MapReduce versione 2 (MRv2) che si eseguono su YARN.

3: Pianificazione del Cluster Hadoop (16%)

  • Principali punti da considerare nella scelta dell'hardware e dei sistemi operativi per ospitare un cluster Apache Hadoop.
  • Analizzare le scelte nell'elezione di un sistema operativo
  • Comprendere la regolazione del kernel e lo scambio della memoria su disco
  • Data una situazione e un modello di carico di lavoro, identificare una configurazione hardware appropriata per la situazione
  • Data una situazione, determinare i componenti dell'ecosistema del proprio cluster necessari per soddisfare l'SLA
  • Dimensionamento del cluster: data una situazione e una frequenza di esecuzione, identificare le specifiche del carico di lavoro, inclusa CPU, memoria, archiviazione, I/O del disco
  • Dimensionamento e configurazione del disco, incluso JBOD rispetto a RAID, SANs, virtualizzazione e requisiti di dimensionamento del disco in un cluster
  • Topologie di rete: comprendere l'utilizzo della rete in Hadoop (per sia HDFS che MapReduce) e proporre o identificare i componenti chiave del design della rete per una situazione data

4: Installazione ed Amministrazione del Cluster Hadoop (25%)

  • Data una situazione, identificare come il cluster gestirà i fallimenti del disco e della macchina
  • Analizzare la configurazione dei log e il formato del file di configurazione dei log
  • Comprendere le basi delle metriche e del monitoraggio della salute del cluster Hadoop
  • Identificare la funzione e lo scopo degli strumenti disponibili per il monitoraggio del cluster
  • Essere in grado di installare tutti i componenti dell'ecosistema in CDH 5, inclusi (ma non limitati a): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive e Pig
  • Identificare la funzione e lo scopo degli strumenti disponibili per la gestione del sistema di file Apache Hadoop

5: Gestione delle Risorse (10%)

  • Comprendere gli obiettivi progettuali generali di ciascuno dei scheduler di Hadoop
  • Data una situazione, determinare come lo Scheduler FIFO alloca le risorse del cluster
  • Data una situazione, determinare come lo Scheduler Fair alloca le risorse del cluster su YARN
  • Data una situazione, determinare come lo Scheduler Capacity alloca le risorse del cluster

6: Monitoraggio e Logging (15%)

  • Comprendere le funzioni ed i caratteristiche delle capacità di raccolta delle metriche di Hadoop
  • Analizzare le interfacce Web NameNode e JobTracker
  • Comprendere come monitorare i daemon del cluster
  • Identificare ed il monitoraggio dell'uso della CPU sui nodi master
  • Descrivere come monitorare l'allocazione dello scambio e della memoria su tutti i nodi
  • Identificare come visualizzare e gestire i file di log di Hadoop
  • Interpretare un file di log

Requisiti

  • Competenze di amministrazione base Linux
  • Competenze di programmazione base
 35 ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (3)

Corsi in Arrivo

Categorie relative