Contattataci

Struttura del corso

Fondamenti del Deployment in Produzione di Tencent Hunyuan

  • Panoramica degli scenari di serving dei modelli Tencent Hunyuan
  • Caratteristiche operative dei modelli di grandi dimensioni e dei modelli MoE
  • Colli di bottiglia comuni relativi a latenza, throughput e costi
  • Definizione degli obiettivi di livello di servizio (SLO) per i carichi di lavoro di inferenza

Architettura di Deployment e Flusso di Serving

  • Componenti fondamentali dello stack di inferenza in produzione
  • Scelta tra modelli di deployment containerizzati, on-premise e cloud
  • Caricamento del modello, instradamento delle richieste e allocazione di base della GPU
  • Progettazione per affidabilità e semplicità operativa

Ottimizzazione della Latenza nella Pratica

  • Utilizzo di motori di inferenza ottimizzati come TensorRT, ove applicabile
  • Concetti di KV-cache e regolazione pratica della cache
  • Riduzione dell'overhead di avvio, warmup e risposta
  • Misurazione del tempo fino al primo token e della velocità di generazione del token

Throughput, Batching ed Efficienza della GPU

  • Strategie di continuous batching e batching delle richieste
  • Gestione della concorrenza e del comportamento delle code
  • Miglioramento dell'utilizzo della GPU senza compromettere l'esperienza utente
  • Gestione di richieste a contesto lungo e carichi di lavoro misti

Quantizzazione e Controllo dei Costi

  • Perché la quantizzazione è fondamentale per il serving in produzione
  • Compromessi pratici tra FP16, INT8 e altre opzioni di precisione comuni
  • Bilanciamento tra qualità del modello, latenza e costi infrastrutturali
  • Creazione di una checklist semplice per l'ottimizzazione dei costi

Operazioni, Monitoraggio e Verifica di Pronto

  • Trigger di autoscaling per i servizi di inferenza
  • Monitoraggio di latenza, throughput, utilizzo della cache e stato di salute della GPU
  • Fondamenti di logging, alerting e gestione degli incidenti
  • Revisione di un deployment di riferimento e creazione di un piano di miglioramento

Requisiti

  • Conoscenza di base dei processi di deployment e inferenza dei modelli linguistici di grandi dimensioni (LLM)
  • Esperienza con container, infrastrutture cloud o on-premise e servizi basati su API
  • Conoscenza operativa di Python o di compiti di ingegneria di sistema

Pubblico

  • Ingegneri ML che distribuiscono LLM in produzione
  • Ingegneri di piattaforma responsabili dei servizi di inferenza basati su GPU
  • Architetti di soluzioni che progettano piattaforme di serving AI scalabili
 14 ore

Numero di Partecipanti


Prezzo per partecipante

Corsi in Arrivo

Categorie relative