Struttura del corso

Introduzione all'AI Multimodale e Ollama

  • Panoramica dell'apprendimento multimodale
  • Sfide principali nell'integrazione visione-linguaggio
  • Caratteristiche e architettura di Ollama

Configurazione dell'Ambiente Ollama

  • Installazione e configurazione di Ollama
  • Lavoro con il deployment locale dei modelli
  • Integrazione di Ollama con Python e Jupyter

Lavoro con Input Multimodali

  • Integrazione testo-immagine
  • Incorporazione di audio e dati strutturati
  • Progettazione di pipeline di preprocessing

Aree di Applicazione della Comprensione dei Documenti

  • Estrazione di informazioni strutturate da PDF e immagini
  • Combining OCR con modelli linguistici
  • Sviluppo di flussi di lavoro per l'analisi intelligente dei documenti

Risposte Visive alle Domande (VQA)

  • Configurazione di dataset e benchmark VQA
  • Addestramento ed esame di modelli multimodali
  • Sviluppo di applicazioni interattive VQA

Progettazione di Agenti Multimodali

  • Principi del progetto degli agenti con ragionamento multimodale
  • Integrazione percezione, linguaggio e azione
  • Deploying agents per casi d'uso reali

Integrazioni Avanzate e Ottimizzazione

  • Tuning dettagliato di modelli multimodali con Ollama
  • Ottimizzazione delle prestazioni dell'inferenza
  • Considerazioni su scalabilità e deploy

Riepilogo ed Esecuzione Successiva

Requisiti

  • Forte comprensione dei concetti di apprendimento automatico
  • Esperienza con framework di deep learning come PyTorch o TensorFlow
  • Familiarità con il processing del linguaggio naturale e la visione artificiale

Pubblico

  • Ingegneri dell'apprendimento automatico
  • Ricercatori di intelligenza artificiale
  • Sviluppatori di prodotti che integrano flussi di lavoro di visione e testo
 21 ore

Numero di Partecipanti


Prezzo per Partecipante

Corsi in Arrivo

Categorie relative