Struttura del corso
Introduzione
- Apprendimento attraverso il rinforzo positivo
Elements di Reinforcement Learning
Termini importanti (Azioni, Stati, Ricompense, Politica, Valore, Q-Value, ecc.)
Panoramica dei metodi delle soluzioni tabulari
Creazione di un agente software
Comprendere gli approcci basati sul valore, sulle policy e sui modelli
Lavorare con il processo decisionale di Markov (MDP)
In che modo le policy definiscono il modo di comportarsi di un agente
Utilizzo dei metodi Monte Carlo
Apprendimento delle differenze temporali
n-passo Bootstrapping
Metodi di soluzione approssimata
Previsione in linea con i criteri con approssimazione
Controllo in linea con le policy con approssimazione
Metodi fuori policy con approssimazione
Informazioni sulle tracce di idoneità
Utilizzo dei metodi di gradiente dei criteri
Riassunto e conclusione
Requisiti
- Esperienza con l'apprendimento automatico
- Programming esperienza
Pubblico
- Scienziati dei dati