Struttura del corso

Introduzione a Predictive AIOps

  • Panoramica delle analitiche predictive nelle operazioni IT
  • Sorgenti di dati per la previsione (log, metriche, eventi)
  • Concetti chiave nella previsione della serie temporale e nei pattern anomali

Progettazione dei Modelli di Previsione degli Incidenti

  • Etichettatura degli incidenti storici e del comportamento del sistema
  • Scegliere e addestrare i modelli (es., LSTM, Random Forest, AutoML)
  • Valutazione delle prestazioni dei modelli e gestione dei falsi positivi

Raccolta Dati ed Enginnering delle Caratteristiche

  • Ingestione e allineamento di log e dati metrici per l'input del modello
  • Estrazione delle caratteristiche da dati strutturati e non strutturati
  • Gestione del rumore e dei dati mancanti nelle pipeline operative

Automazione dell'Analisi della Causa Radice (RCA)

  • Correlazione basata sul grafico di servizi ed infrastruttura
  • L'utilizzo del ML per inferire possibili cause radice da catene di eventi
  • Visualizzazione RCA con pannelli a conoscenza della topologia

Rimedi e Workflow Automation

  • Integrazione con piattaforme di automazione (es., Ansible, Rundeck)
  • Sblocco di rollbacks, riavvii o ridirezionamenti del traffico
  • Audit e documentazione delle interventi automatizzati

Scalabilità delle Pipeline Intelligenze AIOps

  • MLOps per l'osservabilità: riconformazione e versionamento del modello
  • Esecuzione di previsioni in tempo reale su nodi distribuiti
  • Best practice per la distribuzione di AIOps negli ambienti di produzione

Casi di Studio ed Applicazioni Pratiche

  • Analisi dei dati degli incidenti reali utilizzando modelli predittivi AIOps
  • Distribuzione delle pipeline RCA con dati sintetici e di produzione
  • Riepilogo dei casi d'uso nell'industria: interruzioni nel cloud, instabilità dei microservizi, degradazione della rete

Sintesi ed Esecuzione Successiva

Requisiti

  • esperienza con sistemi di monitoraggio come Prometheus o ELK
  • conoscenza pratica di Python e base di machine learning
  • familiarità con i flussi di lavoro di gestione degli incidenti

Pubblico mirato

  • Ingegneri senior della affidabilità del sito (SREs)
  • Architetti dell'automazione IT
  • DevOps e leader di piattaforme di osservabilità
 14 ore

Numero di Partecipanti


Prezzo per Partecipante

Corsi in Arrivo

Categorie relative