Struttura del corso

1.1Hadoop Concetti

1.1.1HDFS

    La progettazione di HDFS Interfaccia a riga di comando Hadoop File system

1.1.2Cluster

    Anatomia di un ammasso Nodo Mater / Nodo Slave Nodo nome / Nodo dati

1.2Manipolazione dei dati

1.2.1MapRiduci dettagliato

    Fase di mappatura Ridurre la fase Cambiare

1.2.2Analisi con riduzione mappa

    Raggruppa per con MapReduce Distribuzioni di frequenza e ordinamento con MapReduce Rappresentazione grafica dei risultati (GNU Plot) Istogrammi con MapReduce Grafici a dispersione con MapReduce Analisi di set di dati complessi Conteggio con MapReduce e Combiners Creazione di report

 

1.2.3Pulizia dei dati

    Pulizia dei documenti Ricerca di stringhe fuzzy Collegamento dei record / deduplicazione dei dati Trasformare e ordinare le date degli eventi Convalidare l'affidabilità dell'origine Riduci valori anomali

1.2.4Estrazione e trasformazione dei dati

    Trasformazione dei log Utilizzo di Apache Pig per filtrare Utilizzo di Apache Pig per l'ordinamento Utilizzo di Apache Pig per la sessione

1.2.5Join avanzati

    Unire i dati nel mapper utilizzando MapReduce Unire i dati utilizzando il join replicato di Apache Pig Unire i dati ordinati utilizzando Apache Pig merge join Join di dati asimmetrici utilizzando il join asimmetrico di Apache Pig Utilizzo di un join lato mappa in Apache Hive Utilizzo di join esterni completi ottimizzati in Apache Hive Unire i dati utilizzando un archivio di valori di chiave esterna

1.3 Tecniche di diagnosi e ottimizzazione delle prestazioni

    Mappa Analisi dei picchi nei dati di input Identificazione dei problemi di distorsione dei dati lato mappa Eseguire il mapping della velocità effettiva delle attività File di piccole dimensioni File non divisibili
Ridurre Troppo pochi o troppi riduttori
  • Ridurre i problemi di distorsione dei dati
  • Riduci la velocità effettiva delle attività
  • Riproduzione casuale e ordinamento lenti
  • Processi concorrenti e limitazione dell'utilità di pianificazione
  • Dump dello stack e codice non ottimizzato
  • Errori hardware
  • Contesa di CPU
  • Attività Estrazione e visualizzazione dei tempi di esecuzione delle attività
  • Profilatura della mappa e riduzione delle attività
  • Evitare il riduttore
  • Filtra e proietta
  • Utilizzo del combinatore
  • Smistamento rapido con comparatori
  • Raccolta di dati asimmetrici
  • Riduci la mitigazione dell'asimmetria
  • Requisiti

    Ai partecipanti non è richiesta alcuna competenza specifica in quanto la formazione è incentrata sulle competenze degli utenti finali sia per l'amministrazione che per la manipolazione dei dati in Apache Hadoop

      21 ore
     

    Numero di Partecipanti


    Data Inizio

    Data Fine


    Le date sono soggette a disponibilità e si svolgono tra le 09:30 e le 16:30.
    I corsi di formazione pubblici richiedono più di 5 partecipanti.

    Recensioni (3)

    Corsi relativi

    Categorie relative