Struttura del corso

Introduzione a Mistral su larga scala

  • Panoramica di Mistral Medium 3
  • Dilemmi tra prestazioni e costi
  • Considerazioni per l'impiego su larga scala in ambito aziendale

Pattern di distribuzione per i LLM

  • Topologie di servizio e scelte di progettazione
  • Distribuzioni on-premises vs cloud
  • Strategie ibride e multi-cloud

Tecniche di ottimizzazione dell'inferenza

  • Strategie di batch per un alto throughput
  • Metodi di quantizzazione per la riduzione dei costi
  • Utilizzo degli acceleratori e delle GPU

Eseguibilità e affidabilità su larga scala

  • Ridimensionamento di cluster Kubernetes per l'inferenza
  • Bilanciamento del carico e routing del traffico
  • Tolleranza ai guasti e ridondanza

Framework di ingegneria dei costi

  • Misurazione dell'efficienza dei costi per l'inferenza
  • Determinazione della dimensione appropriata delle risorse di calcolo e memoria
  • Monitoraggio e allertamento per ottimizzazione

Sicurezza e conformità in produzione

  • Sicurezza delle distribuzioni e delle API
  • Considerazioni di governance dei dati
  • Conformità regolatoria nell'ingegneria dei costi

Casi studio e best practice

  • Architetture di riferimento per Mistral su larga scala
  • Lezioni apprese dalle distribuzioni aziendali
  • Tendenze future nell'inferenza efficiente dei LLM

Riassunto e passi successivi

Requisiti

  • Solida comprensione della distribuzione dei modelli di machine learning
  • Esperienza con infrastrutture cloud e sistemi distribuiti
  • Familiarità con le strategie di ottimizzazione delle prestazioni e dei costi

Pubblico di destinazione

  • Ingegneri di infrastruttura
  • Architetti cloud
  • Responsabili MLOps
 14 Ore

Numero di Partecipanti


Prezzo per Partecipante

Corsi in Arrivo

Categorie relative