Struttura del corso

Introduzione ai Modelli Vision-Language

  • Panoramica sui modelli VLM e il loro ruolo nell'AI multimodale
  • Architetture popolari: CLIP, Flamingo, BLIP, ecc.
  • Casi d'uso: ricerca, didascalie, sistemi autonomi, analisi del contenuto

Preparazione dell'Ambiente per il Fine-Tuning

  • Configurazione di OpenCLIP e altre librerie VLM
  • Formati dei dataset per coppie immagine-testo
  • Pipeline di preprocessamento per input visivi e linguistici

Fine-Tuning di CLIP e Modelli Simili

  • Perdita contrastiva e spazi di embedding congiunti
  • Pratica: fine-tuning di CLIP su dataset personalizzati
  • Gestione dei dati specifici del dominio e multilingue

Tecniche Avanzate per il Fine-Tuning

  • Utilizzo di LoRA e metodi basati su adapter per l'efficienza
  • Regolazione delle prompt e iniezione di prompt visive
  • Differenze tra valutazione zero-shot e fine-tuned

Valutazione e Benchmarking

  • Metriche per i modelli VLM: accuratezza della retrieval, BLEU, CIDEr, recall
  • Diagnostics dell'allineamento visuale-testuale
  • Visualizzazione degli spazi di embedding e delle misclassificazioni

Distribuzione e Utilizzo in Applicazioni Reali

  • Esportazione dei modelli per l'inferenza (TorchScript, ONNX)
  • Integrazione dei VLM in pipeline o API
  • Considerazioni di risorse e scalabilità del modello

Casi di Studio e Scenari Applicativi

  • Analisi dei media e moderazione del contenuto
  • Ricerca e retrieval in e-commerce e biblioteche digitali
  • Interazione multimodale in robotica e sistemi autonomi

Riassunto e Prossimi Passi

Requisiti

  • Una comprensione del deep learning per la visione e il NLP (Natural Language Processing)
  • Esperienza con PyTorch e modelli basati su transformer
  • Familiarità con le architetture dei modelli multimodalità

Pubblico di riferimento

  • Ingegneri di computer vision
  • Sviluppatori AI
 14 Ore

Numero di Partecipanti


Prezzo per Partecipante

Corsi in Arrivo

Categorie relative