Grazie per aver inviato la tua richiesta! Uno dei nostri team membri ti contatterà a breve.
Grazie per aver inviato il tuo prenotazione! Uno dei nostri team membri ti contatterà a breve.
Struttura del corso
Introduzione allo Scaling di Ollama
- Architettura di Ollama e considerazioni per lo scaling
- Bottlenecks comuni nelle distribuzioni a multi utenti
- Migliori pratiche per la preparazione dell'infrastruttura
Gestione delle Risorse e Ottimizzazione GPU
- Strategie efficienti di utilizzo CPU/GPU
- Considerazioni su memoria e larghezza di banda
- Limiti delle risorse al livello dei container
Distribuzione con Contenitori e Kubernetes
- Containerizzazione di Ollama con Docker
- Esecuzione di Ollama nei cluster Kubernetes
- Bilanciamento del carico e scoperta dei servizi
Autoscaling e Batching
- Progettazione delle politiche di autoscaling per Ollama
- Tecniche di inferenza a lotte per l'ottimizzazione del throughput
- Sfide tra latenza e throughput
Ottimizzazione della Latenza
- Profiling delle prestazioni dell'inferenza
- Strategie di caching e riscaldamento dei modelli
- Riduzione degli overhead I/O e di comunicazione
Monitoraggio e Observability
- Integrazione di Prometheus per le metriche
- Crea dashboard con Grafana
- Allarme e risposta agli incidenti per l'infrastruttura Ollama
Gestione dei Costi e Strategie di Scaling
- Assegnazione GPU consapevole del costo
- Considerazioni su distribuzione cloud vs. on-premises
- Strategie per uno scaling sostenibile
Riassunto e Passaggi Successivi
Requisiti
- esperienza nell'amministrazione di sistemi Linux
- comprensione della containerizzazione e dell'orchestrazion
- familiarità con la distribuzione di modelli di apprendimento automatico
Pubblico
- ingegneri DevOps
- team di infrastrutture ML
- ingegneri della affidabilità del sito
21 ore