Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Struttura del corso
Progettazione di un'Architettura Aperta AIOps
- Panoramica dei componenti chiave nei pipeline aperti AIOps
- Flusso dei dati dall'inserimento agli avvisi
- Confronto degli strumenti e strategia di integrazione
Raccolta e Aggregazione dei Dati
- Inserimento dei dati di serie temporali con Prometheus
- Cattura dei log con Logstash e Beats
- Normalizzazione dei dati per la correlazione cross-sorgente
Costruzione di Pannelli di Osservabilità
- Visualizzazione delle metriche con Grafana
- Creazione dei pannelli Kibana per l'analisi dei log
- Utilizzo di query Elasticsearch per estrarre le intuizioni operative
Detezione delle Anomalie e Previsione degli Incidenti
- Esportazione dei dati di osservabilità nelle pipeline Python
- Addestramento dei modelli ML per la rilevazione delle anomalie e le previsioni
- Deployment dei modelli per l'inferenza in tempo reale nella pipeline di osservabilità
Avvisi e Automazione con Strumenti Aperti
- Creazione delle regole di avviso Prometheus e routing Alertmanager
- Attivazione di script o flussi di lavoro API per la risposta automatica
- Utilizzo degli strumenti di orchestrazione open source (ad esempio, Ansible, Rundeck)
Considerazioni su Integrazione e Scalabilità
- Gestione dell'inserimento ad alta frequenza e del mantenimento a lungo termine
- Sicurezza e controllo di accesso negli stack open source
- Scalabilità indipendente di ogni strato: inserimento, elaborazione, avvisi
Applicazioni nel Mondo Reale ed Estensioni
- Studi di caso: ottimizzazione delle prestazioni, prevenzione dei tempi morti e ottimizzazione dei costi
- Estensione delle pipeline con strumenti di tracing o grafici del servizio
- Migliori pratiche per la gestione e manutenzione dell'AIOps in produzione
Riepilogo e Passaggi Successivi
Requisiti
- Esperienza con strumenti di osservabilità come Prometheus o ELK
- Conoscenze operative su Python e fondamenti di machine learning
- Comprendimento delle operazioni IT e dei flussi di lavoro degli avvisi
Pubblico Obiettivo
- Advanced site reliability engineers (SREs)
- Data engineer che lavorano nelle operazioni
- DevOps platform leads e architetti di infrastruttura
14 ore