Grazie per aver inviato la tua richiesta! Uno dei nostri team membri ti contatterà a breve.
Grazie per aver inviato il tuo prenotazione! Uno dei nostri team membri ti contatterà a breve.
Struttura del corso
Introduzione all'AIOps Predittiva
- Panoramica dell'analisi predittiva nelle operazioni IT
- Fonti di dati per la previsione (log, metriche, eventi)
- Concetti chiave nella previsione delle serie storiche e nei pattern anomali
Progettazione di Modelli di Previsione degli Incidenti
- Etichettatura degli incidenti storici e del comportamento del sistema
- Scelta e addestramento dei modelli (ad esempio, LSTM, Random Forest, AutoML)
- Valutazione delle prestazioni del modello e gestione dei falsi positivi
Raccolta di Dati e Ingegneria delle Caratteristiche
- Ingesta e allineamento dei dati log e metrici per l'input del modello
- Estrazione di caratteristiche da dati strutturati e non strutturati
- Gestione del rumore e dei dati mancanti nelle pipeline operative
Automazione dell'Analisi della Causa Radicale (RCA)
- Correlazione basata su grafo dei servizi e delle infrastrutture
- Uso del ML per inferire le probabili cause radici dalle catene di eventi
- Visualizzazione della RCA con dashboard sensibili alla topologia
Correzione e Automazione dei Flussi di Lavoro
- Integrazione con piattaforme di automazione (ad esempio, Ansible, Rundeck)
- Attivazione di rollbacks, riavvii o redirezione del traffico
- Revisione e documentazione delle interventi automatizzati
Scalabilità di Pipeline AIOps Intelligenti
- MLOps per l'osservabilità: riaddestramento e versionamento del modello
- Esecuzione di previsioni in tempo reale su nodi distribuiti
- Best practice per il deployment delle AIOps negli ambienti di produzione
Studi di Caso e Applicazioni Pratiche
- Analisi di dati reali degli incidenti utilizzando modelli AIOps predittivi
- Distribuzione di pipeline RCA con dati sintetici e di produzione
- Revisione dei casi d'uso dell'industria: interruzioni cloud, instabilità di microservizi, degradazioni della rete
Riepilogo e Passi Successivi
Requisiti
- Esperienza con sistemi di monitoraggio come Prometheus o ELK
- Conoscenze operative di Python e machine learning di base
- Familiarità con i flussi di lavoro di gestione degli incidenti
Pubblico
- Ingegneri di affidabilità del sito senior (SREs)
- Architetti di automazione IT
- Responsabili delle piattaforme DevOps e di osservabilità
14 ore