Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Struttura del corso
Introduzione a Predictive AIOps
- Panoramica dell'analisi predittiva nelle operazioni IT
- Sorgenti di dati per la previsione (log, metriche, eventi)
- Concetti chiave nella previsione delle serie temporali e nei pattern anomali
Progettazione dei Modelli di Previsione degli Incidenti
- Etichettatura degli incidenti storici e del comportamento del sistema
- Scelta ed addestramento dei modelli (es., LSTM, Random Forest, AutoML)
- Valutazione delle prestazioni del modello e gestione degli errori di falsa segnalazione
Raccolta dei Dati e Ingegneria delle Caratteristiche
- Assunzione e allineamento dei dati dei log e delle metriche per l'input del modello
- Estrazione delle caratteristiche dai dati strutturati ed estrutturati
- Gestione del rumore e dei dati mancanti nelle pipeline operative
Automatizzazione dell'Analisi della Causa Radice (RCA)
- Correlazione basata su grafo di servizi ed infrastruttura
- Utilizzo del ML per inferire la probabile causa radice a partire dalle catene degli eventi
- Visualizzazione della RCA con dashboard consapevoli della topologia
Remediazione e Workflow Automation
- Integrazione con piattaforme di automazione (es., Ansible, Rundeck)
- Attivazione di rollback, riavvii o ridirezionamento del traffico
- Revisione e documentazione delle interventi automatizzati
Scalabilità delle Pipeline Intelligenti AIOps
- MLOps per l'osservabilità: rieducazione e versionamento del modello
- Esecuzione di previsioni in tempo reale su nodi distribuiti
- Migliori prassi per la distribuzione delle AIOps in ambienti di produzione
Studi di Caso e Applicazioni Pratiche
- Analisi dei dati degli incidenti reali utilizzando modelli predittivi AIOps
- Distribuzione delle pipeline RCA con dati sintetici e produttivi
- Riepilogo di casi d'uso dell'industria: outages cloud, instabilità dei microservizi, degradazione della rete
Riassunto e Passi Successivi
Requisiti
- Esperienza con sistemi di monitoraggio come Prometheus o ELK
- Conoscenze operative di Python e base di apprendimento automatico
- Familiarità con i flussi di lavoro della gestione degli incidenti
Pubblico Obiettivo
- Ingegneri senior di affidabilità del sito (SRE)
- Architetti dell'automazione IT
- Leader delle piattaforme DevOps e di osservabilità
14 ore