Struttura del corso
Introduzione al Machine Learning
- Tipi di machine learning – supervisionato vs non supervisionato
- Dall'apprendimento statistico al machine learning
- Il workflow di data mining: comprensione del business, preparazione dei dati, modellazione, deployment
- Scelta dell'algoritmo giusto per il compito
- Overfitting e tradeoff tra bias e varianza
Panoramica di Python e librerie ML
- Perché usare i linguaggi di programmazione per il machine learning
- Scelta tra R e Python
- Corso accelerato di Python e Jupyter Notebooks
- Librerie Python: pandas, NumPy, scikit-learn, matplotlib, seaborn
Test e valutazione degli algoritmi ML
- Generalizzazione, overfitting e validazione del modello
- Strategie di valutazione: holdout, cross-validation, bootstrapping
- Metriche per la regressione: ME, MSE, RMSE, MAPE
- Metriche per la classificazione: accuratezza, matrice di confusione, classi sbilanciate
- Visualizzazione delle prestazioni del modello: curva profitto, curva ROC, curva lift
- Selezione del modello e ricerca griglia per l'ottimizzazione
Preparazione dei dati
- Importazione e archiviazione dei dati in Python
- Analisi esplorativa e statistiche riassuntive
- Gestione dei valori mancanti e degli outlier
- Standardizzazione, normalizzazione e trasformazione
- Recoding di dati qualitativi e data wrangling con pandas
Algoritmi di classificazione
- Classificazione binaria vs multiclasse
- Regressione logistica e funzioni discriminanti
- Naïve Bayes, k-nearest neighbors
- Alberi decisionali: CART, Random Forests, Bagging, Boosting, XGBoost
- Support Vector Machines e kernel
- Tecniche di ensemble learning
Regressione e previsione numerica
- Minimi quadrati e selezione delle variabili
- Metodi di regolarizzazione: L1, L2
- Regressione polinomiale e modelli non lineari
- Alberi decisionali per la regressione e splines
Reti neurali
- Introduzione alle reti neurali e al deep learning
- Funzioni di attivazione, livelli e backpropagation
- Multilayer perceptrons (MLP)
- Uso di TensorFlow o PyTorch per la modellazione delle reti neurali di base
- Reti neurali per classificazione e regressione
Previsione delle vendite e analisi predittive
- Previsione basata su serie temporali vs regressione
- Gestione dei dati stagionali e trend-based
- Costruzione di un modello di previsione delle vendite utilizzando tecniche ML
- Valutazione dell'accuratezza della previsione e incertezza
- Interpretazione e comunicazione dei risultati in ambito aziendale
Apprendimento non supervisionato
- Tecniche di clustering: k-means, k-medoids, clustering gerarchico, SOMs
- Riduzione della dimensionalità: PCA, analisi fattoriale, SVD
- Scaling multidimensionale
Mining del testo
- Preprocessing e tokenizzazione del testo
- Bag-of-words, stemming e lemmatization
- Analisi dell'opinione e frequenza delle parole
- Visualizzazione dei dati di testo con word clouds
Sistemi di raccomandazione
- Filtraggio collaborativo basato sull'utente e sull'elemento
- Progettazione e valutazione dei motori di raccomandazione
Mining dei pattern associativi
- Insiemi frequenti e algoritmo Apriori
- Analisi del carrello della spesa e rapporto di lift
Rilevamento degli outlier
- Analisi dei valori estremi
- Metodi basati sulla distanza e sulle densità
- Rilevamento degli outlier in dati ad alta dimensionalità
Caso di studio di machine learning
- Comprensione del problema aziendale
- Preprocessing dei dati e ingegneria delle feature
- Selezione del modello e tuning dei parametri
- Valutazione e presentazione dei risultati
- Deployment
Riepilogo e passi successivi
Requisiti
- Conoscenze di base dei concetti di machine learning, come apprendimento supervisionato e non supervisionato
- Familiarità con la programmazione Python (variabili, cicli, funzioni)
- Alcuna esperienza nell'elaborazione dei dati utilizzando librerie come pandas o NumPy è utile ma non richiesta
- Non si richiede alcuna esperienza precedente con modelli avanzati o reti neurali
Pubblico di riferimento
- Data scientists
- Analisti aziendali
- Ingegneri software e professionisti tecnici che lavorano con i dati
Recensioni (2)
the ML ecosystem not only MLFlow but Optuna, hyperops, docker , docker-compose
Guillaume GAUTIER - OLEA MEDICAL
Corso - MLflow
I enjoyed participating in the Kubeflow training, which was held remotely. This training allowed me to consolidate my knowledge for AWS services, K8s, all the devOps tools around Kubeflow which are the necessary bases to properly tackle the subject. I wanted to thank Malawski Marcin for his patience and professionalism for training and advice on best practices. Malawski approaches the subject from different angles, different deployment tools Ansible, EKS kubectl, Terraform. Now I am definitely convinced that I am going into the right field of application.