Struttura del corso

Introduzione a AIOps con strumenti open source

  • Panoramica dei concetti e vantaggi di AIOps
  • Prometheus e Grafana nella pila di osservabilità
  • Dove si colloca l'ML in AIOps: analisi predittiva vs. reattiva

Configurazione di Prometheus e Grafana

  • Installazione e configurazione di Prometheus per la raccolta delle serie temporali
  • Crea dashboard in Grafana utilizzando metriche in tempo reale
  • Esplorare exporter, relabeling e discovery dei servizi

Preprocessing dei dati per l'ML

  • Estrazione e trasformazione delle metriche Prometheus
  • Preparazione degli insiemi di dati per la rilevazione delle anomalie e la previsione
  • Utilizzo delle trasformazioni di Grafana o pipeline di Python

Applicazione dell'Machine Learning per la rilevazione delle anomalie

  • Modelli ML di base per la rilevazione degli outlier (ad esempio, Isolation Forest, One-Class SVM)
  • Addestramento e valutazione dei modelli sui dati di serie temporali
  • Visione delle anomalie nei dashboard di Grafana

Metriche Forecasting con ML

  • Costruzione di semplici modelli di previsione (ARIMA, Prophet, introduzione a LSTM)
  • Predizione del carico del sistema o dell'utilizzo delle risorse
  • Utilizzo delle predizioni per l'allarme precoce e le decisioni di scaling

Integrazione ML con allarmi e automatizzazione

  • Definizione di regole di allerta basate sull'output del ML o sulle soglie
  • Utilizzo di Alertmanager e routing delle notifiche
  • Attivazione di script o flussi di lavoro automatici in caso di rilevazione di anomalie

Scalabilità ed Operationalizzazione AIOps

  • Integrazione con strumenti esterni di osservabilità (ad esempio, ELK stack, Moogsoft, Dynatrace)
  • Operationalizzazione dei modelli ML nelle pipeline di osservabilità
  • Migliori pratiche per AIOps a scala

Riassunto e Passaggi successivi

Requisiti

  • Una comprensione dei concetti di monitoraggio del sistema e osservabilità
  • esperienza nell'uso di Grafana o Prometheus
  • Familiarità con Python e principi base dell'apprendimento automatico

Pubblico

  • Ingegneri di osservabilità
  • Team infrastruttura e DevOps
  • Architetti delle piattaforme di monitoraggio e ingegneri per la affidabilità del sito (SRE)
 14 ore

Numero di Partecipanti


Prezzo per Partecipante

Corsi in Arrivo

Categorie relative