Struttura del corso
Introduzione
- Introduzione al Cloud Computing e alle soluzioni Big Data
- Panoramica delle Funzionalità e dell'Architettura di Apache Hadoop
Configurazione di Hadoop
- Pianificazione di un cluster Hadoop (on-premise, cloud, ecc.)
- Selezione del sistema operativo e della distribuzione Hadoop
- Provisioning delle risorse (hardware, rete, ecc.)
- Download e installazione del software
- Dimensionamento del cluster per la flessibilità
Lavorare con HDFS
- Comprendere il Hadoop Distributed File System (HDFS)
- Panoramica delle Comandi di Riferimento di HDFS
- Accesso a HDFS
- Esecuzione di Operazioni di Base sui File in HDFS
- Utilizzo di S3 come integrazione a HDFS
Panoramica di MapReduce
- Comprendere il Flusso dei Dati nel Framework MapReduce
- Map, Shuffle, Sort e Reduce
- Demo: Calcolo dei Salari più Elevati
Lavorare con YARN
- Comprendere la gestione delle risorse in Hadoop
- Lavorare con ResourceManager, NodeManager e Application Master
- Scheduling dei job sotto YARN
- Scheduling per un numero elevato di nodi e cluster
- Demo: Scheduling dei job
Integrazione di Hadoop con Spark
- Configurazione dell'archiviazione per Spark (HDFS, Amazon, S3, NoSQL, ecc.)
- Comprendere i Resilient Distributed Datasets (RDDs)
- Creazione di un RDD
- Implementazione di Trasformazioni RDD
- Demo: Implementazione di un Programma di Ricerca Testuale per Titoli di Film
Gestione di un Cluster Hadoop
- Monitoraggio di Hadoop
- Sicurezza di un cluster Hadoop
- Aggiunta e rimozione di nodi
- Esecuzione di un benchmark delle prestazioni
- Ottimizzazione delle prestazioni del cluster Hadoop
- Pianificazione dei backup, della ripristino e della continuità aziendale
- Garantire la disponibilità elevata (HA)
Aggiornamento e Migrazione di un Cluster Hadoop
- Valutazione dei requisiti del carico di lavoro
- Aggiornamento di Hadoop
- Spostamento da on-premise al cloud e viceversa
- Ripristino da errori
Risoluzione dei problemi
Riassunto e Conclusione
Requisiti
- Esperienza in amministrazione di sistema
- Conoscenza della riga di comando Linux
- Comprensione dei concetti di big data
Pubblico Target
- Amministratori di sistema
- DBA (Database Administrators)
Recensioni (3)
Mi è piaciuto che fosse pratico. Ho adorato applicare le conoscenze teoriche con esempi pratici.
Aurelia-Adriana - Allianz Services Romania
Corso - Python and Spark for Big Data (PySpark)
Traduzione automatica
Il fatto che siamo riusciti a portare con noi la maggior parte delle informazioni, dei corsi, delle presentazioni e degli esercizi svolti, in modo da poterli rivisitare e magari ripetere ciò che non abbiamo capito la prima volta o migliorare ciò che abbiamo già fatto.
Raul Mihail Rat - Accenture Industrial SS
Corso - Python, Spark, and Hadoop for Big Data
Traduzione automatica
molto interattivo...
Richard Langford
Corso - SMACK Stack for Data Science
Traduzione automatica