Struttura del corso

Introduzione

Comprendere l'architettura e i concetti chiave di Hadoop

Informazioni sul file system distribuito Hadoop (HDFS)

    Panoramica di HDFS e della sua progettazione architettonica Interazione con HDFS Esecuzione di operazioni di base sui file in HDFS Cenni preliminari sulla Guida di riferimento ai comandi HDFS Panoramica di Morso di serpente Installazione di Snakebite Utilizzo della libreria client Snakebite Utilizzo del client CLI

Apprendimento del modello di programmazione MapReduce con Python

    Panoramica del modello MapReduce Programming Informazioni sul flusso di dati nel framework MapReduce Mappa Riproduzione casuale e ordinamento Ridurre
Utilizzo dell'utilità di streaming Hadoop Informazioni sul funzionamento dell'utilità di streaming Hadoop
  • Demo: Implementazione dell'applicazione WordCount su Python
  • Utilizzo della libreria mrjob Panoramica di mrjob
  • Installazione di mrjob
  • Demo: Implementazione dell'algoritmo WordCount con mrjob
  • Informazioni sul funzionamento di un processo MapReduce scritto con la libreria mrjob
  • Esecuzione di un'applicazione MapReduce con mrjob
  • Hands-on: Calcolare i migliori stipendi usando mrjob
  • Imparare il maiale con Python
  • Panoramica di Pig Demo: Implementazione dell'algoritmo WordCount in Pig Configurazione ed esecuzione di script Pig e istruzioni Pig Utilizzo delle modalità di esecuzione Pig Utilizzo della modalità interattiva Pig Utilizzo della modalità Pic Batch
  • Comprendere i concetti di base della lingua latina suina Utilizzo delle istruzioni

      Caricamento dei dati
    Trasformazione dei dati
  • Archiviazione dei dati
  • Estensione della funzionalità di Pig con Python FDU Registrazione di un file FDU Python
  • Demo: Una semplice Python FDU
  • Demo: Manipolazione di stringhe con Python FDU
  • Hands-on: Calcolo dei 10 filmati più recenti utilizzando Python UDF
  • Utilizzo di Spark e PySpark
  • Panoramica di Spark Demo: Implementazione dell'algoritmo WordCount in PySpark Panoramica di PySpark Utilizzo di una shell interattiva Implementazione di applicazioni autonome
  • Utilizzo di set di dati distribuiti resilienti (RDD) Creazione di RDD da una raccolta Python
  • Creazione di RDD da file
  • Implementazione delle trasformazioni RDD

      Implementazione di azioni RDD
    Hands-on: Implementazione di un programma di testo Search per i titoli dei film con PySpark
  • Gestione del flusso di lavoro con Python
  • Panoramica di Apache Oozie e Luigi Installazione di Luigi Informazioni sui concetti relativi al flusso di lavoro Luigi Attività Obiettivi Parametri
  • Demo: Esame di un flusso di lavoro che implementa l'algoritmo WordCount
  • Utilizzo di Hadoop flussi di lavoro che controllano i processi MapReduce e Pig Utilizzo dei file di configurazione di Luigi
  • Utilizzo di MapReduce in Luigi
  • Lavorare con il maiale in Luigi
  • Riassunto e conclusione

    Requisiti

    • Esperienza con Python programmazione
    • Familiarità di base con Hadoop
     28 ore

    Numero di Partecipanti



    Prezzo per Partecipante

    Recensioni (3)

    Corsi relativi

    Categorie relative