Struttura del corso
Introduzione
- Introduzione alle soluzioni di Cloud Computing e Big Data
- Panoramica delle funzionalità e dell'architettura di Apache Hadoop
Impostazione Hadoop
- Pianificazione di un Hadoop cluster (on-premise, cloud, ecc.)
- Selezione del sistema operativo e della distribuzione Hadoop
- Provisioning delle risorse (hardware, rete, ecc.)
- Download e installazione del software
- Dimensionamento del cluster per una maggiore flessibilità
Utilizzo di HDFS
- Informazioni su Hadoop Distributed File System (HDFS)
- Cenni preliminari sulla Guida di riferimento ai comandi HDFS
- Accesso a HDFS
- Esecuzione di operazioni di base sui file in HDFS
- Utilizzo di S3 come complemento a HDFS
Panoramica di MapReduce
- Informazioni sul flusso di dati nel framework MapReduce
- Mappa, mescola, ordina e riduci
- Demo: Calcolo degli stipendi più alti
Lavorare con YARN
- Informazioni sulla gestione delle risorse in Hadoop
- Utilizzo di ResourceManager, NodeManager, Application Master
- Pianificazione dei processi in YARN
- Pianificazione per un numero elevato di nodi e cluster
- Demo: Pianificazione dei processi
Integrazione Hadoop con Spark
- Configurazione dell'archiviazione per Spark (HDFS, Amazon, S3, NoSQL e così via)
- Informazioni sui set di dati distribuiti resilienti (RDD)
- Creazione di un RDD
- Implementazione delle trasformazioni RDD
- Demo: Implementazione di un programma di ricerca testuale per i titoli dei film
Gestione di un cluster Hadoop
- Monitoraggio Hadoop
- Protezione di un cluster Hadoop
- Aggiunta e rimozione di nodi
- Esecuzione di un benchmark delle prestazioni
- Ottimizzazione di un cluster Hadoop per ottimizzare le prestazioni
- Pianificazione di backup, ripristino e continuità operativa
- Garantire l'alta disponibilità (HA)
Aggiornamento e migrazione di un cluster Hadoop
- Valutazione dei requisiti del carico di lavoro
- Aggiornamento Hadoop
- Passaggio dall'on-premise al cloud e viceversa
- Ripristino da errori
Risoluzione dei problemi
Riassunto e conclusione
Requisiti
- Esperienza nell'amministrazione di sistema
- Esperienza con Linux riga di comando
- Comprensione dei concetti di big data
Pubblico
- Amministratori di sistema
- Dba
Recensioni (6)
I liked that it was practical. Loved to apply the theoretical knowledge with practical examples.
Aurelia-Adriana - Allianz Services Romania
Corso - Python and Spark for Big Data (PySpark)
This is one of the best hands-on with exercises programming courses I have ever taken.
Laura Kahn
Corso - Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Corso - Data Analysis with Hive/HiveQL
Sufficient hands on, trainer is knowledgable
Chris Tan
Corso - A Practical Introduction to Stream Processing
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Corso - Big Data Analytics in Health
Having hands on session / assignments