Contattataci

Struttura del corso

PySpark & Machine Learning 

Modulo 1: Fondamenti di Big Data e Spark

  • Panoramica sull'ecosistema Big Data e sul ruolo di Spark nelle moderne piattaforme dati
  • Comprensione dell'architettura di Spark: driver, executor, cluster manager, valutazione lazy, DAG e pianificazione dell'esecuzione
  • Differenze tra le API RDD e DataFrame e quando utilizzare ciascun approccio
  • Creazione e configurazione di SparkSession e comprensione dei fondamenti della configurazione dell'applicazione

Modulo 2: PySpark DataFrames

  • Lettura e scrittura di dati da fonti e formati aziendali (CSV, JSON, Parquet, Delta)
  • Lavoro con PySpark DataFrames: trasformazioni, azioni, espressioni di colonna, filtraggio, join e aggregazioni
  • Implementazione di operazioni avanzate come funzioni finestra, gestione dei timestamp e lavoro con dati annidati
  • Applicazione di controlli sulla qualità dei dati e scrittura di codice PySpark riutilizzabile e manutenibile

Modulo 3: Elaborazione efficiente di grandi dataset

  • Comprensione dei fondamenti delle prestazioni: strategie di partizionamento, comportamento dello shuffle, caching e persistenza
  • Utilizzo di tecniche di ottimizzazione, inclusi broadcast join e analisi del piano di esecuzione
  • Elaborazione efficiente di grandi dataset e best practice per workflow dati scalabili
  • Comprensione dell'evoluzione dello schema e dei formati di archiviazione moderni utilizzati negli ambienti aziendali

Modulo 4: Ingegneria delle feature su larga scala

  • Esecuzione di ingegneria delle feature con Spark MLlib: gestione di valori mancanti, codifica di variabili categoriche e scaling delle feature
  • Progettazione di passaggi di pre-elaborazione riutilizzabili e preparazione dei dataset per pipeline di Machine Learning
  • Introduzione alla selezione delle feature e alla gestione di dataset sbilanciati

Modulo 5: Machine Learning con Spark MLlib

  • Comprensione dell'architettura di MLlib e del pattern Estimator/Transformer
  • Addestramento di modelli di regressione e classificazione su larga scala (Regressione Lineare, Regressione Logistica, Alberi Decisionali, Random Forest)
  • Confronto dei modelli e interpretazione dei risultati in workflow di Machine Learning distribuiti

Modulo 6: Pipeline ML end-to-end

  • Costruzione di pipeline di Machine Learning end-to-end che combinano pre-elaborazione, ingegneria delle feature e modellazione
  • Applicazione di strategie di split train/validation/test
  • Esecuzione di cross-validation e ottimizzazione degli iperparametri utilizzando grid search e random search
  • Struttura di esperimenti di Machine Learning riproducibili

Modulo 7: Valutazione dei modelli e decisioni pratiche nel Machine Learning

  • Applicazione di metriche di valutazione appropriate per problemi di regressione e classificazione
  • Identificazione di overfitting e underfitting e presa di decisioni pratiche per la selezione del modello
  • Interpretazione dell'importanza delle feature e comprensione del comportamento del modello

Modulo 8: Pratiche di produzione e aziendali

  • Persistenza e caricamento di modelli in Spark
  • Implementazione di workflow di inferenza batch su grandi dataset
  • Comprensione del ciclo di vita del Machine Learning negli ambienti aziendali
  • Introduzione ai concetti di versionamento, tracciamento degli esperimenti e strategie di base per i test

 

Esito Pratico

  • Capacità di lavorare autonomamente con PySpark
  • Capacità di elaborare grandi dataset in modo efficiente
  • Capacità di eseguire ingegneria delle feature su larga scala
  • Capacità di costruire pipeline di Machine Learning scalabili

Requisiti

I partecipanti dovrebbero possedere le seguenti competenze di base:

Conoscenza di base della programmazione Python, inclusa l'uso di funzioni, strutture dati e librerie
Comprensione fondamentale dei concetti di analisi dei dati, come dataset, trasformazioni e aggregazioni
Conoscenza di base di SQL e dei concetti relativi ai dati relazionali
Introduzione ai concetti di Machine Learning, come dataset di addestramento, feature e metriche di valutazione
È consigliata familiarità con ambienti da riga di comando e pratiche di base dello sviluppo software

L'esperienza con Pandas, NumPy o librerie simili per l'elaborazione dati è utile ma non obbligatoria.

 21 ore

Numero di Partecipanti


Prezzo per partecipante

Recensioni (1)

Corsi in Arrivo

Categorie relative