Contattataci

Struttura del corso

Infrastructure as Code per EXO

  • Panoramica degli schemi di deployment di EXO: cluster a nodo singolo, multi-nodo e RDMA
  • Automazione dell'installazione delle dipendenze (Xcode, uv, Node.js, Rust) con gestione delle configurazioni
  • Utilizzo di Nix flakes per build riproducibili di EXO e ambienti di sviluppo
  • Scrittura di playbook Ansible o script shell per il provisioning non supervisionato dei cluster

Build riproducibili e integrazione CI

  • Pin delle dipendenze e build della dashboard nelle pipeline CI
  • Esecuzione dei test di fumata (smoke tests) di EXO sugli runner di GitHub Actions o GitLab CI
  • Creazione di immagini golden e workflow di rollback basati su snapshot per VM macOS e Linux
  • Versioning delle card dei modelli personalizzate insieme al codice dell'applicazione

Scoperta del cluster e automazione del networking

  • Configurazione di mDNS e DNS statico per una scoperta affidabile dei nodi libp2p
  • Automazione della creazione dei profili di rete e gestione del bridge Thunderbolt su macOS
  • Utilizzo di namespace personalizzati (EXO_LIBP2P_NAMESPACE) per separare cluster dev, staging e prod
  • Regole del firewall e segmentazione di rete per ambienti multi-tenant

Gestione dello storage e del ciclo di vita dei modelli

  • Progettazione delle strategie per EXO_MODELS_DIRS e EXO_MODELS_READ_ONLY_DIRS
  • Montaggio di condivisioni NFS o SAN come repository dei modelli in sola lettura per un provisioning rapido
  • Garbage collection delle cache non più utili e politiche di retention dei pesi versionati
  • Automazione del download anticipato dei modelli e dei check di salute prima degli aggiornamenti rolling

Monitoring e Alerting

  • Inoltro dei log di EXO a un sistema di logging centralizzato (ELK, Loki o Splunk)
  • Creazione di dashboard Grafana a partire dall'output EXO_TRACING_ENABLED
  • Configurazione di alert per modifiche alla membership del cluster, eventi OOM e picchi di latenza di inference
  • Correlazione della telemetria hardware macmon con regressioni delle prestazioni del modello

Aggiornamento, Rollback e Disaster Recovery

  • Test degli aggiornamenti dei binari EXO su un nodo canary prima del rollout su tutta la flotta
  • Rollback a livello di modello: passaggio tra versioni quantizzate senza ricaricamento
  • Backup e ripristino dello stato del cluster, dei namespace personalizzati e dei pesi in cache
  • Documentazione delle runbook di recupero per scenari di ricostruzione totale del cluster

Hardening della sicurezza e conformità

  • Applicazione di TLS al livello del reverse proxy (nginx, traefik) per la dashboard e l'API
  • Implementazione del rate limiting delle API e del whitelisting degli IP per gli endpoint EXO
  • Isolamento dei cluster con VLAN e politiche di rete zero-trust
  • Auditing degli accessi e mantenimento dell'inventario dei modelli e delle versioni deployate

Requisiti

  • Esperienza con pratiche DevOps (CI/CD, IaC, orchestrazione di container)
  • Conoscenza dell'amministrazione di sistemi macOS o Linux e della gestione dei pacchetti
  • Comprensione dei concetti di networking, DNS e storage

Pubblico target

  • Ingegneri DevOps
  • Arcitetti di infrastrutture
  • SRE responsabili per carichi di lavoro AI on-premise
 21 ore

Numero di Partecipanti


Prezzo per partecipante

Recensioni (2)

Corsi in Arrivo

Categorie relative