Struttura del corso

Introduzione allo Scaling di Ollama

  • Architettura di Ollama e considerazioni per lo scaling
  • Bottlenecks comuni nelle distribuzioni a multi utenti
  • Migliori pratiche per la preparazione dell'infrastruttura

Gestione delle Risorse e Ottimizzazione GPU

  • Strategie efficienti di utilizzo CPU/GPU
  • Considerazioni su memoria e larghezza di banda
  • Limiti delle risorse al livello dei container

Distribuzione con Contenitori e Kubernetes

  • Containerizzazione di Ollama con Docker
  • Esecuzione di Ollama nei cluster Kubernetes
  • Bilanciamento del carico e scoperta dei servizi

Autoscaling e Batching

  • Progettazione delle politiche di autoscaling per Ollama
  • Tecniche di inferenza a lotte per l'ottimizzazione del throughput
  • Sfide tra latenza e throughput

Ottimizzazione della Latenza

  • Profiling delle prestazioni dell'inferenza
  • Strategie di caching e riscaldamento dei modelli
  • Riduzione degli overhead I/O e di comunicazione

Monitoraggio e Observability

  • Integrazione di Prometheus per le metriche
  • Crea dashboard con Grafana
  • Allarme e risposta agli incidenti per l'infrastruttura Ollama

Gestione dei Costi e Strategie di Scaling

  • Assegnazione GPU consapevole del costo
  • Considerazioni su distribuzione cloud vs. on-premises
  • Strategie per uno scaling sostenibile

Riassunto e Passaggi Successivi

Requisiti

  • esperienza nell'amministrazione di sistemi Linux
  • comprensione della containerizzazione e dell'orchestrazion
  • familiarità con la distribuzione di modelli di apprendimento automatico

Pubblico

  • ingegneri DevOps
  • team di infrastrutture ML
  • ingegneri della affidabilità del sito
 21 ore

Numero di Partecipanti


Prezzo per Partecipante

Corsi in Arrivo

Categorie relative