Grazie per aver inviato la tua richiesta! Uno dei nostri team membri ti contatterà a breve.
Grazie per aver inviato il tuo prenotazione! Uno dei nostri team membri ti contatterà a breve.
Struttura del corso
Introduzione a Predictive AIOps
- Panoramica dell'analisi predittiva nelle operazioni IT
- Sorgenti di dati per la previsione (log, metriche, eventi)
- Concetti chiave nella previsione delle serie temporali e nei pattern anomali
Progettazione dei Modelli di Previsione degli Incidenti
- Etichettatura degli incidenti storici e del comportamento del sistema
- Scelta ed addestramento dei modelli (es., LSTM, Random Forest, AutoML)
- Valutazione delle prestazioni del modello e gestione degli errori di falsa segnalazione
Raccolta dei Dati e Ingegneria delle Caratteristiche
- Assunzione e allineamento dei dati dei log e delle metriche per l'input del modello
- Estrazione delle caratteristiche dai dati strutturati ed estrutturati
- Gestione del rumore e dei dati mancanti nelle pipeline operative
Automatizzazione dell'Analisi della Causa Radice (RCA)
- Correlazione basata su grafo di servizi ed infrastruttura
- Utilizzo del ML per inferire la probabile causa radice a partire dalle catene degli eventi
- Visualizzazione della RCA con dashboard consapevoli della topologia
Remediazione e Workflow Automation
- Integrazione con piattaforme di automazione (es., Ansible, Rundeck)
- Attivazione di rollback, riavvii o ridirezionamento del traffico
- Revisione e documentazione delle interventi automatizzati
Scalabilità delle Pipeline Intelligenti AIOps
- MLOps per l'osservabilità: rieducazione e versionamento del modello
- Esecuzione di previsioni in tempo reale su nodi distribuiti
- Migliori prassi per la distribuzione delle AIOps in ambienti di produzione
Studi di Caso e Applicazioni Pratiche
- Analisi dei dati degli incidenti reali utilizzando modelli predittivi AIOps
- Distribuzione delle pipeline RCA con dati sintetici e produttivi
- Riepilogo di casi d'uso dell'industria: outages cloud, instabilità dei microservizi, degradazione della rete
Riassunto e Passi Successivi
Requisiti
- Esperienza con sistemi di monitoraggio come Prometheus o ELK
- Conoscenze operative di Python e base di apprendimento automatico
- Familiarità con i flussi di lavoro della gestione degli incidenti
Pubblico Obiettivo
- Ingegneri senior di affidabilità del sito (SRE)
- Architetti dell'automazione IT
- Leader delle piattaforme DevOps e di osservabilità
14 ore