Grazie per aver inviato la tua richiesta! Uno dei nostri team membri ti contatterà a breve.
Grazie per aver inviato il tuo prenotazione! Uno dei nostri team membri ti contatterà a breve.
Struttura del corso
Sovranità AI e Deployment Locale di LLM
- Rischi dei LLM cloud: conservazione dei dati, addestramento sugli input, giurisdizione straniera.
- Architettura di Ollama: server dei modelli, registro e API compatibile con OpenAI.
- Confronto con vLLM, llama.cpp e Text Generation Inference.
- Licenze dei modelli: termini di Llama, Mistral, Qwen e Gemma.
Installazione e Configurazione Hardware
- Installazione di Ollama su Linux con supporto CUDA e ROCm.
- Fallback solo CPU e ottimizzazione AVX/AVX2.
- Deployment con Docker e mappatura dei volumi persistenti.
- Configurazione multi-GPU e strategie di allocazione della VRAM.
Gestione dei Modelli
- Download dei modelli dal registro Ollama: ollama pull llama3.
- Importazione di modelli GGUF da HuggingFace e TheBloke.
- Livelli di quantizzazione: compromessi tra Q4_K_M, Q5_K_M e Q8_0.
- Cambio di modello e limiti di caricamento concorrente dei modelli.
Modelfile Personalizzati
- Scrittura della sintassi del Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
- Ottimizzazione di temperatura, top_p e repeat_penalty.
- Ingegnerizzazione del prompt di sistema per comportamenti specifici del ruolo.
- Creazione e pubblicazione di modelli personalizzati sul registro locale.
Integrazione API
- Endpoint /v1/chat/completions compatibile con OpenAI.
- Risposte in streaming e modalità JSON.
- Integrazione con LangChain, LlamaIndex e applicazioni personalizzate.
- Autenticazione e rate limiting tramite reverse proxy.
Ottimizzazione delle Prestazioni
- Dimensionamento della finestra di contesto e gestione della cache KV.
- Inferenza batch e gestione delle richieste parallele.
- Allocazione dei thread CPU e awareness NUMA.
- Monitoraggio dell'utilizzo della GPU e della pressione della memoria.
Sicurezza e Conformità
- Isolamento di rete per gli endpoint di servizio dei modelli.
- Filtraggio degli input e pipeline di moderazione degli output.
- Registro di audit dei prompt e delle risposte generate.
- Provenienza dei modelli e verifica dell'hash.
Requisiti
- Conoscenze intermedie di amministrazione Linux e container.
- Comprensione ad alto livello del machine learning e dei modelli transformer.
- Familiarità con le API REST e JSON.
Pubblico
- Ingegneri AI e sviluppatori che sostituiscono le API cloud LLM.
- Organizzazioni con sensibilità ai dati che impediscono l'uso di modelli cloud.
- Team governativi e della difesa che richiedono modelli linguistici disconnessi dalla rete (air-gapped).
14 ore