Struttura del corso

Introduzione a Predictive AIOps

  • Panoramica dell'analisi predittiva nelle operazioni IT
  • Sorgenti di dati per la previsione (log, metriche, eventi)
  • Concetti chiave nella previsione delle serie temporali e nei pattern anomali

Progettazione dei Modelli di Previsione degli Incidenti

  • Etichettatura degli incidenti storici e del comportamento del sistema
  • Scelta ed addestramento dei modelli (es., LSTM, Random Forest, AutoML)
  • Valutazione delle prestazioni del modello e gestione degli errori di falsa segnalazione

Raccolta dei Dati e Ingegneria delle Caratteristiche

  • Assunzione e allineamento dei dati dei log e delle metriche per l'input del modello
  • Estrazione delle caratteristiche dai dati strutturati ed estrutturati
  • Gestione del rumore e dei dati mancanti nelle pipeline operative

Automatizzazione dell'Analisi della Causa Radice (RCA)

  • Correlazione basata su grafo di servizi ed infrastruttura
  • Utilizzo del ML per inferire la probabile causa radice a partire dalle catene degli eventi
  • Visualizzazione della RCA con dashboard consapevoli della topologia

Remediazione e Workflow Automation

  • Integrazione con piattaforme di automazione (es., Ansible, Rundeck)
  • Attivazione di rollback, riavvii o ridirezionamento del traffico
  • Revisione e documentazione delle interventi automatizzati

Scalabilità delle Pipeline Intelligenti AIOps

  • MLOps per l'osservabilità: rieducazione e versionamento del modello
  • Esecuzione di previsioni in tempo reale su nodi distribuiti
  • Migliori prassi per la distribuzione delle AIOps in ambienti di produzione

Studi di Caso e Applicazioni Pratiche

  • Analisi dei dati degli incidenti reali utilizzando modelli predittivi AIOps
  • Distribuzione delle pipeline RCA con dati sintetici e produttivi
  • Riepilogo di casi d'uso dell'industria: outages cloud, instabilità dei microservizi, degradazione della rete

Riassunto e Passi Successivi

Requisiti

  • Esperienza con sistemi di monitoraggio come Prometheus o ELK
  • Conoscenze operative di Python e base di apprendimento automatico
  • Familiarità con i flussi di lavoro della gestione degli incidenti

Pubblico Obiettivo

  • Ingegneri senior di affidabilità del sito (SRE)
  • Architetti dell'automazione IT
  • Leader delle piattaforme DevOps e di osservabilità
 14 ore

Numero di Partecipanti


Prezzo per Partecipante

Corsi in Arrivo

Categorie relative