Contattataci

Struttura del corso

Sovranità AI e Deployment Locale di LLM

  • Rischi dei LLM cloud: conservazione dei dati, addestramento sugli input, giurisdizione straniera.
  • Architettura di Ollama: server dei modelli, registro e API compatibile con OpenAI.
  • Confronto con vLLM, llama.cpp e Text Generation Inference.
  • Licenze dei modelli: termini di Llama, Mistral, Qwen e Gemma.

Installazione e Configurazione Hardware

  • Installazione di Ollama su Linux con supporto CUDA e ROCm.
  • Fallback solo CPU e ottimizzazione AVX/AVX2.
  • Deployment con Docker e mappatura dei volumi persistenti.
  • Configurazione multi-GPU e strategie di allocazione della VRAM.

Gestione dei Modelli

  • Download dei modelli dal registro Ollama: ollama pull llama3.
  • Importazione di modelli GGUF da HuggingFace e TheBloke.
  • Livelli di quantizzazione: compromessi tra Q4_K_M, Q5_K_M e Q8_0.
  • Cambio di modello e limiti di caricamento concorrente dei modelli.

Modelfile Personalizzati

  • Scrittura della sintassi del Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
  • Ottimizzazione di temperatura, top_p e repeat_penalty.
  • Ingegnerizzazione del prompt di sistema per comportamenti specifici del ruolo.
  • Creazione e pubblicazione di modelli personalizzati sul registro locale.

Integrazione API

  • Endpoint /v1/chat/completions compatibile con OpenAI.
  • Risposte in streaming e modalità JSON.
  • Integrazione con LangChain, LlamaIndex e applicazioni personalizzate.
  • Autenticazione e rate limiting tramite reverse proxy.

Ottimizzazione delle Prestazioni

  • Dimensionamento della finestra di contesto e gestione della cache KV.
  • Inferenza batch e gestione delle richieste parallele.
  • Allocazione dei thread CPU e awareness NUMA.
  • Monitoraggio dell'utilizzo della GPU e della pressione della memoria.

Sicurezza e Conformità

  • Isolamento di rete per gli endpoint di servizio dei modelli.
  • Filtraggio degli input e pipeline di moderazione degli output.
  • Registro di audit dei prompt e delle risposte generate.
  • Provenienza dei modelli e verifica dell'hash.

Requisiti

  • Conoscenze intermedie di amministrazione Linux e container.
  • Comprensione ad alto livello del machine learning e dei modelli transformer.
  • Familiarità con le API REST e JSON.

Pubblico

  • Ingegneri AI e sviluppatori che sostituiscono le API cloud LLM.
  • Organizzazioni con sensibilità ai dati che impediscono l'uso di modelli cloud.
  • Team governativi e della difesa che richiedono modelli linguistici disconnessi dalla rete (air-gapped).
 14 ore

Numero di Partecipanti


Prezzo per partecipante

Corsi in Arrivo

Categorie relative