Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Struttura del corso
1.1Hadoop Concetti
1.1.1HDFS
-
La progettazione di HDFS
Interfaccia a riga di comando
Hadoop File system
1.1.2Cluster
-
Anatomia di un ammasso
Nodo Mater / Nodo Slave
Nodo nome / Nodo dati
1.2Manipolazione dei dati
1.2.1MapRiduci dettagliato
-
Fase di mappatura
Ridurre la fase
Cambiare
1.2.2Analisi con riduzione mappa
-
Raggruppa per con MapReduce
Distribuzioni di frequenza e ordinamento con MapReduce
Rappresentazione grafica dei risultati (GNU Plot)
Istogrammi con MapReduce
Grafici a dispersione con MapReduce
Analisi di set di dati complessi
Conteggio con MapReduce e Combiners
Creazione di report
1.2.3Pulizia dei dati
-
Pulizia dei documenti
Ricerca di stringhe fuzzy
Collegamento dei record / deduplicazione dei dati
Trasformare e ordinare le date degli eventi
Convalidare l'affidabilità dell'origine
Riduci valori anomali
1.2.4Estrazione e trasformazione dei dati
-
Trasformazione dei log
Utilizzo di Apache Pig per filtrare
Utilizzo di Apache Pig per l'ordinamento
Utilizzo di Apache Pig per la sessione
1.2.5Join avanzati
-
Unire i dati nel mapper utilizzando MapReduce
Unire i dati utilizzando il join replicato di Apache Pig
Unire i dati ordinati utilizzando Apache Pig merge join
Join di dati asimmetrici utilizzando il join asimmetrico di Apache Pig
Utilizzo di un join lato mappa in Apache Hive
Utilizzo di join esterni completi ottimizzati in Apache Hive
Unire i dati utilizzando un archivio di valori di chiave esterna
1.3 Tecniche di diagnosi e ottimizzazione delle prestazioni
-
Mappa
Analisi dei picchi nei dati di input
Identificazione dei problemi di distorsione dei dati lato mappa
Eseguire il mapping della velocità effettiva delle attività
File di piccole dimensioni
File non divisibili
Requisiti
Ai partecipanti non è richiesta alcuna competenza specifica in quanto la formazione è incentrata sulle competenze degli utenti finali sia per l'amministrazione che per la manipolazione dei dati in Apache Hadoop
21 ore
Recensioni (3)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Corso - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Corso - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay