Grazie per aver inviato la tua richiesta! Uno dei nostri team membri ti contatterà a breve.
Grazie per aver inviato il tuo prenotazione! Uno dei nostri team membri ti contatterà a breve.
Struttura del corso
Progettazione di un'Architettura Aperta AIOps
- Panoramica dei componenti chiave nei pipeline aperti AIOps
- Flusso dei dati dall'inserimento agli avvisi
- Confronto degli strumenti e strategia di integrazione
Raccolta e Aggregazione dei Dati
- Inserimento dei dati di serie temporali con Prometheus
- Cattura dei log con Logstash e Beats
- Normalizzazione dei dati per la correlazione cross-sorgente
Costruzione di Pannelli di Osservabilità
- Visualizzazione delle metriche con Grafana
- Creazione dei pannelli Kibana per l'analisi dei log
- Utilizzo di query Elasticsearch per estrarre le intuizioni operative
Detezione delle Anomalie e Previsione degli Incidenti
- Esportazione dei dati di osservabilità nelle pipeline Python
- Addestramento dei modelli ML per la rilevazione delle anomalie e le previsioni
- Deployment dei modelli per l'inferenza in tempo reale nella pipeline di osservabilità
Avvisi e Automazione con Strumenti Aperti
- Creazione delle regole di avviso Prometheus e routing Alertmanager
- Attivazione di script o flussi di lavoro API per la risposta automatica
- Utilizzo degli strumenti di orchestrazione open source (ad esempio, Ansible, Rundeck)
Considerazioni su Integrazione e Scalabilità
- Gestione dell'inserimento ad alta frequenza e del mantenimento a lungo termine
- Sicurezza e controllo di accesso negli stack open source
- Scalabilità indipendente di ogni strato: inserimento, elaborazione, avvisi
Applicazioni nel Mondo Reale ed Estensioni
- Studi di caso: ottimizzazione delle prestazioni, prevenzione dei tempi morti e ottimizzazione dei costi
- Estensione delle pipeline con strumenti di tracing o grafici del servizio
- Migliori pratiche per la gestione e manutenzione dell'AIOps in produzione
Riepilogo e Passaggi Successivi
Requisiti
- Esperienza con strumenti di osservabilità come Prometheus o ELK
- Conoscenze operative su Python e fondamenti di machine learning
- Comprendimento delle operazioni IT e dei flussi di lavoro degli avvisi
Pubblico Obiettivo
- Advanced site reliability engineers (SREs)
- Data engineer che lavorano nelle operazioni
- DevOps platform leads e architetti di infrastruttura
14 ore