Struttura del corso

1: HDFS (17%)

  • Descrivere la funzione dei daemon HDFS
  • Descrivere il normale funzionamento di un cluster Apache Hadoop, sia nell'archiviazione dei dati che nell'elaborazione dei dati.
  • Identificare le caratteristiche attuali dei sistemi informatici che motivano un sistema come Apache Hadoop.
  • Classificare gli obiettivi principali della progettazione HDFS
  • Dato uno scenario, identificare il caso d'uso appropriato per la federazione HDFS
  • Identificare i componenti e il daemon di un cluster HDFS HA-Quorum
  • Analizzare il ruolo della sicurezza HDFS (Kerberos)
  • Determinare la scelta di serializzazione dei dati migliore per un determinato scenario
  • Descrivere i percorsi di lettura e scrittura dei file
  • Identificare i comandi per manipolare i file nella shell del file system Hadoop

2: YARN e MapReduce versione 2 (MRv2) (17%)

  • Informazioni su come l'aggiornamento di un cluster da Hadoop 1 a Hadoop 2 influisce sulle impostazioni del cluster
  • Informazioni su come distribuire MapReduce v2 (MRv2/YARN), inclusi tutti i daemon YARN
  • Comprendere la strategia di progettazione di base per MapReduce v2 (MRv2)
  • Determinare il modo in cui YARN gestisce le allocazioni di risorse
  • Identificare il flusso di lavoro del processo MapReduce in esecuzione su YARN
  • Determinare quali file è necessario modificare e come eseguire la migrazione di un cluster da MapReduce versione 1 (MRv1) a MapReduce versione 2 (MRv2) in esecuzione su YARN.

3: Hadoop Pianificazione cluster (16%)

  • Punti principali da considerare nella scelta dell'hardware e dei sistemi operativi per ospitare un cluster Apache Hadoop.
  • Analizzare le scelte nella selezione di un sistema operativo
  • Comprendere l'ottimizzazione del kernel e lo scambio di dischi
  • In base a uno scenario e a un modello di carico di lavoro, identificare una configurazione hardware appropriata per lo scenario
  • Dato uno scenario, determinare i componenti dell'ecosistema che il cluster deve eseguire per soddisfare il contratto di servizio
  • Dimensionamento del cluster: in base a uno scenario e a una frequenza di esecuzione, identificare le specifiche per il carico di lavoro, tra cui CPU, memoria, storage, I/O del disco
  • Dimensionamento e configurazione del disco, inclusi i requisiti JBOD rispetto a RAID, SAN, virtualizzazione e dimensionamento del disco in un cluster
  • Topologie di rete: comprendere l'utilizzo della rete in Hadoop (sia per HDFS che per MapReduce) e proporre o identificare i componenti chiave di progettazione della rete per un determinato scenario

4: Hadoop Installazione e amministrazione del cluster (25%)

  • Dato uno scenario, identificare il modo in cui il cluster gestirà gli errori del disco e del computer
  • Analizzare una configurazione di registrazione e un formato di file di configurazione di registrazione
  • Comprendere le nozioni di base delle metriche Hadoop e del monitoraggio dell'integrità del cluster
  • Identificare la funzione e lo scopo degli strumenti disponibili per il monitoraggio dei cluster
  • Essere in grado di installare tutti i componenti dell'ecosistema in CDH 5, inclusi (ma non limitati a): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive e Pig
  • Identificare la funzione e lo scopo degli strumenti disponibili per la gestione del file system Apache Hadoop

5: Risorsa Management (10%)

  • Comprendere gli obiettivi di progettazione generali di ciascuno degli Hadoop scheduler
  • Dato uno scenario, determinare il modo in cui l'utilità di pianificazione FIFO alloca le risorse del cluster
  • Dato uno scenario, determinare il modo in cui Fair Scheduler alloca le risorse del cluster in YARN
  • Dato uno scenario, determinare il modo in cui l'Utilità di pianificazione della capacità alloca le risorse del cluster

6: Monitoraggio e registrazione (15%)

  • Comprendere le funzioni e le caratteristiche delle capacità di raccolta delle metriche di Hadoop
  • Analizzare le interfacce utente Web di NameNode e JobTracker
  • Informazioni su come monitorare i daemon del cluster
  • Identificare e monitorare l'utilizzo della CPU nei nodi master
  • Descrivere come monitorare lo swap e l'allocazione della memoria su tutti i nodi
  • Identificare come visualizzare e gestire i file di registro di Hadoop
  • Interpretare un file di log

Requisiti

  • Competenze amministrative di base Linux
  • Competenze di programmazione di base
  35 ore
 

Numero di Partecipanti


Data Inizio

Data Fine


Le date sono soggette a disponibilità e si svolgono tra le 09:30 e le 16:30.
I corsi di formazione pubblici richiedono più di 5 partecipanti.

Recensioni (3)

Corsi relativi

Categorie relative