Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Struttura del corso
Introduzione a Predictive AIOps
- Panoramica delle analitiche predictive nelle operazioni IT
- Sorgenti di dati per la previsione (log, metriche, eventi)
- Concetti chiave nella previsione della serie temporale e nei pattern anomali
Progettazione dei Modelli di Previsione degli Incidenti
- Etichettatura degli incidenti storici e del comportamento del sistema
- Scegliere e addestrare i modelli (es., LSTM, Random Forest, AutoML)
- Valutazione delle prestazioni dei modelli e gestione dei falsi positivi
Raccolta Dati ed Enginnering delle Caratteristiche
- Ingestione e allineamento di log e dati metrici per l'input del modello
- Estrazione delle caratteristiche da dati strutturati e non strutturati
- Gestione del rumore e dei dati mancanti nelle pipeline operative
Automazione dell'Analisi della Causa Radice (RCA)
- Correlazione basata sul grafico di servizi ed infrastruttura
- L'utilizzo del ML per inferire possibili cause radice da catene di eventi
- Visualizzazione RCA con pannelli a conoscenza della topologia
Rimedi e Workflow Automation
- Integrazione con piattaforme di automazione (es., Ansible, Rundeck)
- Sblocco di rollbacks, riavvii o ridirezionamenti del traffico
- Audit e documentazione delle interventi automatizzati
Scalabilità delle Pipeline Intelligenze AIOps
- MLOps per l'osservabilità: riconformazione e versionamento del modello
- Esecuzione di previsioni in tempo reale su nodi distribuiti
- Best practice per la distribuzione di AIOps negli ambienti di produzione
Casi di Studio ed Applicazioni Pratiche
- Analisi dei dati degli incidenti reali utilizzando modelli predittivi AIOps
- Distribuzione delle pipeline RCA con dati sintetici e di produzione
- Riepilogo dei casi d'uso nell'industria: interruzioni nel cloud, instabilità dei microservizi, degradazione della rete
Sintesi ed Esecuzione Successiva
Requisiti
- esperienza con sistemi di monitoraggio come Prometheus o ELK
- conoscenza pratica di Python e base di machine learning
- familiarità con i flussi di lavoro di gestione degli incidenti
Pubblico mirato
- Ingegneri senior della affidabilità del sito (SREs)
- Architetti dell'automazione IT
- DevOps e leader di piattaforme di osservabilità
14 ore