Struttura del corso

Introduzione all'AIOps Predittiva

  • Panoramica dell'analisi predittiva nelle operazioni IT
  • Fonti di dati per la previsione (log, metriche, eventi)
  • Concetti chiave nella previsione delle serie storiche e nei pattern anomali

Progettazione di Modelli di Previsione degli Incidenti

  • Etichettatura degli incidenti storici e del comportamento del sistema
  • Scelta e addestramento dei modelli (ad esempio, LSTM, Random Forest, AutoML)
  • Valutazione delle prestazioni del modello e gestione dei falsi positivi

Raccolta di Dati e Ingegneria delle Caratteristiche

  • Ingesta e allineamento dei dati log e metrici per l'input del modello
  • Estrazione di caratteristiche da dati strutturati e non strutturati
  • Gestione del rumore e dei dati mancanti nelle pipeline operative

Automazione dell'Analisi della Causa Radicale (RCA)

  • Correlazione basata su grafo dei servizi e delle infrastrutture
  • Uso del ML per inferire le probabili cause radici dalle catene di eventi
  • Visualizzazione della RCA con dashboard sensibili alla topologia

Correzione e Automazione dei Flussi di Lavoro

  • Integrazione con piattaforme di automazione (ad esempio, Ansible, Rundeck)
  • Attivazione di rollbacks, riavvii o redirezione del traffico
  • Revisione e documentazione delle interventi automatizzati

Scalabilità di Pipeline AIOps Intelligenti

  • MLOps per l'osservabilità: riaddestramento e versionamento del modello
  • Esecuzione di previsioni in tempo reale su nodi distribuiti
  • Best practice per il deployment delle AIOps negli ambienti di produzione

Studi di Caso e Applicazioni Pratiche

  • Analisi di dati reali degli incidenti utilizzando modelli AIOps predittivi
  • Distribuzione di pipeline RCA con dati sintetici e di produzione
  • Revisione dei casi d'uso dell'industria: interruzioni cloud, instabilità di microservizi, degradazioni della rete

Riepilogo e Passi Successivi

Requisiti

  • Esperienza con sistemi di monitoraggio come Prometheus o ELK
  • Conoscenze operative di Python e machine learning di base
  • Familiarità con i flussi di lavoro di gestione degli incidenti

Pubblico

  • Ingegneri di affidabilità del sito senior (SREs)
  • Architetti di automazione IT
  • Responsabili delle piattaforme DevOps e di osservabilità
 14 ore

Numero di Partecipanti


Prezzo per partecipante

Corsi in Arrivo

Categorie relative