Grazie per aver inviato la tua richiesta! Uno dei nostri team membri ti contatterà a breve.
Grazie per aver inviato il tuo prenotazione! Uno dei nostri team membri ti contatterà a breve.
Struttura del corso
Infrastructure as Code per EXO
- Panoramica degli schemi di deployment di EXO: cluster a nodo singolo, multi-nodo e RDMA
- Automazione dell'installazione delle dipendenze (Xcode, uv, Node.js, Rust) con gestione delle configurazioni
- Utilizzo di Nix flakes per build riproducibili di EXO e ambienti di sviluppo
- Scrittura di playbook Ansible o script shell per il provisioning non supervisionato dei cluster
Build riproducibili e integrazione CI
- Pin delle dipendenze e build della dashboard nelle pipeline CI
- Esecuzione dei test di fumata (smoke tests) di EXO sugli runner di GitHub Actions o GitLab CI
- Creazione di immagini golden e workflow di rollback basati su snapshot per VM macOS e Linux
- Versioning delle card dei modelli personalizzate insieme al codice dell'applicazione
Scoperta del cluster e automazione del networking
- Configurazione di mDNS e DNS statico per una scoperta affidabile dei nodi libp2p
- Automazione della creazione dei profili di rete e gestione del bridge Thunderbolt su macOS
- Utilizzo di namespace personalizzati (EXO_LIBP2P_NAMESPACE) per separare cluster dev, staging e prod
- Regole del firewall e segmentazione di rete per ambienti multi-tenant
Gestione dello storage e del ciclo di vita dei modelli
- Progettazione delle strategie per EXO_MODELS_DIRS e EXO_MODELS_READ_ONLY_DIRS
- Montaggio di condivisioni NFS o SAN come repository dei modelli in sola lettura per un provisioning rapido
- Garbage collection delle cache non più utili e politiche di retention dei pesi versionati
- Automazione del download anticipato dei modelli e dei check di salute prima degli aggiornamenti rolling
Monitoring e Alerting
- Inoltro dei log di EXO a un sistema di logging centralizzato (ELK, Loki o Splunk)
- Creazione di dashboard Grafana a partire dall'output EXO_TRACING_ENABLED
- Configurazione di alert per modifiche alla membership del cluster, eventi OOM e picchi di latenza di inference
- Correlazione della telemetria hardware macmon con regressioni delle prestazioni del modello
Aggiornamento, Rollback e Disaster Recovery
- Test degli aggiornamenti dei binari EXO su un nodo canary prima del rollout su tutta la flotta
- Rollback a livello di modello: passaggio tra versioni quantizzate senza ricaricamento
- Backup e ripristino dello stato del cluster, dei namespace personalizzati e dei pesi in cache
- Documentazione delle runbook di recupero per scenari di ricostruzione totale del cluster
Hardening della sicurezza e conformità
- Applicazione di TLS al livello del reverse proxy (nginx, traefik) per la dashboard e l'API
- Implementazione del rate limiting delle API e del whitelisting degli IP per gli endpoint EXO
- Isolamento dei cluster con VLAN e politiche di rete zero-trust
- Auditing degli accessi e mantenimento dell'inventario dei modelli e delle versioni deployate
Requisiti
- Esperienza con pratiche DevOps (CI/CD, IaC, orchestrazione di container)
- Conoscenza dell'amministrazione di sistemi macOS o Linux e della gestione dei pacchetti
- Comprensione dei concetti di networking, DNS e storage
Pubblico target
- Ingegneri DevOps
- Arcitetti di infrastrutture
- SRE responsabili per carichi di lavoro AI on-premise
21 ore
Recensioni (2)
Craig era estremamente coinvolto nella formazione, sempre assicurandosi che prestassimo attenzione, adattando gli esempi alle nostre attività quotidiane e fornendo sempre una risposta quando sollecitato, anche se l'informazione non era inclusa nella presentazione.
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
Corso - DevOps Foundation®
Traduzione automatica
Alto livello di impegno e conoscenza del formatore
Jacek - Softsystem
Corso - DevOps Engineering Foundation (DOEF)®
Traduzione automatica