Struttura del corso
Machine Learning Introduzione
- Tipi di apprendimento automatico – supervisionato vs non supervisionato
- Dall'apprendimento statistico all'apprendimento automatico
- Il workflow della data mining: comprensione aziendale, preparazione dei dati, modellazione, implementazione
- Scegliere l'algoritmo giusto per il compito
- Overfitting e il compromesso tra bias e varianza
Python e Panoramica delle librerie ML
- Perché usare linguaggi di programmazione per l'ML
- Scegliere tra R e Python
- Breve introduzione a Python e Jupyter Notebooks
- Librerie Python: pandas, NumPy, scikit-learn, matplotlib, seaborn
Test e Valutazione degli Algoritmi di ML
- Generalizzazione, overfitting e validazione del modello
- Strategie di valutazione: holdout, cross-validation, bootstrapping
- Metriche per la regressione: ME, MSE, RMSE, MAPE
- Metriche per la classificazione: accuratezza, matrice di confusione, classi sbilanciate
- Visualizzazione delle prestazioni del modello: curva profitto, ROC curve, lift curve
- Scegliere il modello e la ricerca a griglia per l'ottimizzazione
Preparazione dei Dati
- Importazione e archiviazione dei dati in Python
- Analisi esplorativa e statistiche descrittive
- Gestione dei valori mancanti e degli outlier
- Standardizzazione, normalizzazione e trasformazioni
- Ricodifica dei dati qualitativi e wrangling con pandas
Algoritmi di Classificazione
- Classificazione binaria vs multiclasse
- Regressione logistica e funzioni discriminanti
- Naïve Bayes, k-nearest neighbors
- Alberi decisionali: CART, Random Forests, Bagging, Boosting, XGBoost
- Machines a Vettori di Supporto (SVM) e kernel
- Tecniche di apprendimento ensemblistico
Regressione e Predizione Numerica
- Minimi quadrati e selezione delle variabili
- Metodi di regolarizzazione: L1, L2
- Regressione polinomiale e modelli non lineari
- Alberi di regressione e spline
Unsupervised Learning
- Tecniche di clustering: k-means, k-medoids, clustering gerarchico, SOMs
- Riduzione della dimensionalità: PCA, analisi fattoriale, SVD
- Scaling multidimensionale
Mining del Testo
- Preliminari di testo e tokenizzazione
- Bag-of-words, stemming e lemmatization
- Analisi delle opinioni e frequenza delle parole
- Visualizzazione dei dati di testo con nuvole di parole
Sistemi di Recommondazione
- Filtraggio collaborativo basato sull'utente vs su oggetti
- Progettazione e valutazione delle engine di raccomandazioni
Mining dei Pattern Associativi
- Insiemi frequenti e algoritmo Apriori
- Analisi del carrello del cliente e rapporto lift
Detezione degli Outlier
- Analisi dei valori estremi
- Metodi basati sulla distanza e sulla densità
- Detezione degli outlier nei dati ad alta dimensionalità
Machine Learning Studio di Caso
- Comprensione del problema aziendale
- Preliminari dei dati e ingegneria delle caratteristiche
- Scegliere il modello e l'ottimizzazione dei parametri
- Valutazione e presentazione dei risultati
- Implementazione
Riepilogo e Prossimi Passaggi
Requisiti
- Comprensione di base delle statistiche e dell'algebra lineare
- Familiarità con i concetti di analisi dei dati o intelligenza d'affari
- Verrà ritenuta utile una certa esposizione alla programmazione (preferibilmente Python o R)
- Interesse nell'apprendimento del machine learning applicato per progetti basati sui dati
Pubblico
- Analisti e scienziati dei dati
- Statistici e professionisti della ricerca
- Sviluppatori e professionisti IT che esplorano gli strumenti di machine learning
- Tutti coloro che sono coinvolti in progetti di scienza dei dati o analisi predittiva
Recensioni (3)
Even with having to miss a day due to customer meetings, I feel I have a much clearer understanding of the processes and techniques used in Machine Learning and when I would use one approach over another. Our challenge now is to practice what we have learned and start to apply it to our problem domain
Richard Blewett - Rock Solid Knowledge Ltd
Corso - Machine Learning – Data science
I like that training was focused on examples and coding. I thought that it is impossible to pack so much content into three days of training, but I was wrong. Training covered many topics and everything was done in a very detailed manner (especially tuning of model's parameters - I didn't expected that there will be a time for this and I was gratly surprised).
Bartosz Rosiek - GE Medical Systems Polska Sp. Zoo
Corso - Machine Learning – Data science
It is showing many methods with pre prepared scripts- very nicely prepared materials & easy to traceback