Struttura del corso
PySpark & Machine Learning
Modulo 1: Fondamenti di Big Data e Spark
- Panoramica sull'ecosistema Big Data e sul ruolo di Spark nelle moderne piattaforme dati
- Comprensione dell'architettura di Spark: driver, executor, cluster manager, valutazione lazy, DAG e pianificazione dell'esecuzione
- Differenze tra le API RDD e DataFrame e quando utilizzare ciascun approccio
- Creazione e configurazione di SparkSession e comprensione dei fondamenti della configurazione dell'applicazione
Modulo 2: PySpark DataFrames
- Lettura e scrittura di dati da fonti e formati aziendali (CSV, JSON, Parquet, Delta)
- Lavoro con PySpark DataFrames: trasformazioni, azioni, espressioni di colonna, filtraggio, join e aggregazioni
- Implementazione di operazioni avanzate come funzioni finestra, gestione dei timestamp e lavoro con dati annidati
- Applicazione di controlli sulla qualità dei dati e scrittura di codice PySpark riutilizzabile e manutenibile
Modulo 3: Elaborazione efficiente di grandi dataset
- Comprensione dei fondamenti delle prestazioni: strategie di partizionamento, comportamento dello shuffle, caching e persistenza
- Utilizzo di tecniche di ottimizzazione, inclusi broadcast join e analisi del piano di esecuzione
- Elaborazione efficiente di grandi dataset e best practice per workflow dati scalabili
- Comprensione dell'evoluzione dello schema e dei formati di archiviazione moderni utilizzati negli ambienti aziendali
Modulo 4: Ingegneria delle feature su larga scala
- Esecuzione di ingegneria delle feature con Spark MLlib: gestione di valori mancanti, codifica di variabili categoriche e scaling delle feature
- Progettazione di passaggi di pre-elaborazione riutilizzabili e preparazione dei dataset per pipeline di Machine Learning
- Introduzione alla selezione delle feature e alla gestione di dataset sbilanciati
Modulo 5: Machine Learning con Spark MLlib
- Comprensione dell'architettura di MLlib e del pattern Estimator/Transformer
- Addestramento di modelli di regressione e classificazione su larga scala (Regressione Lineare, Regressione Logistica, Alberi Decisionali, Random Forest)
- Confronto dei modelli e interpretazione dei risultati in workflow di Machine Learning distribuiti
Modulo 6: Pipeline ML end-to-end
- Costruzione di pipeline di Machine Learning end-to-end che combinano pre-elaborazione, ingegneria delle feature e modellazione
- Applicazione di strategie di split train/validation/test
- Esecuzione di cross-validation e ottimizzazione degli iperparametri utilizzando grid search e random search
- Struttura di esperimenti di Machine Learning riproducibili
Modulo 7: Valutazione dei modelli e decisioni pratiche nel Machine Learning
- Applicazione di metriche di valutazione appropriate per problemi di regressione e classificazione
- Identificazione di overfitting e underfitting e presa di decisioni pratiche per la selezione del modello
- Interpretazione dell'importanza delle feature e comprensione del comportamento del modello
Modulo 8: Pratiche di produzione e aziendali
- Persistenza e caricamento di modelli in Spark
- Implementazione di workflow di inferenza batch su grandi dataset
- Comprensione del ciclo di vita del Machine Learning negli ambienti aziendali
- Introduzione ai concetti di versionamento, tracciamento degli esperimenti e strategie di base per i test
Esito Pratico
- Capacità di lavorare autonomamente con PySpark
- Capacità di elaborare grandi dataset in modo efficiente
- Capacità di eseguire ingegneria delle feature su larga scala
- Capacità di costruire pipeline di Machine Learning scalabili
Requisiti
I partecipanti dovrebbero possedere le seguenti competenze di base:
Conoscenza di base della programmazione Python, inclusa l'uso di funzioni, strutture dati e librerie
Comprensione fondamentale dei concetti di analisi dei dati, come dataset, trasformazioni e aggregazioni
Conoscenza di base di SQL e dei concetti relativi ai dati relazionali
Introduzione ai concetti di Machine Learning, come dataset di addestramento, feature e metriche di valutazione
È consigliata familiarità con ambienti da riga di comando e pratiche di base dello sviluppo software
L'esperienza con Pandas, NumPy o librerie simili per l'elaborazione dati è utile ma non obbligatoria.
Recensioni (1)
Mi è piaciuto che fosse pratico. Ho adorato applicare le conoscenze teoriche con esempi pratici.
Aurelia-Adriana - Allianz Services Romania
Corso - Python and Spark for Big Data (PySpark)
Traduzione automatica