Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Struttura del corso
Introduzione all'AI Multimodale e Ollama
- Panoramica dell'apprendimento multimodale
- Sfide principali nell'integrazione visione-linguaggio
- Caratteristiche e architettura di Ollama
Configurazione dell'Ambiente Ollama
- Installazione e configurazione di Ollama
- Lavoro con il deployment locale dei modelli
- Integrazione di Ollama con Python e Jupyter
Lavoro con Input Multimodali
- Integrazione testo-immagine
- Incorporazione di audio e dati strutturati
- Progettazione di pipeline di preprocessing
Aree di Applicazione della Comprensione dei Documenti
- Estrazione di informazioni strutturate da PDF e immagini
- Combining OCR con modelli linguistici
- Sviluppo di flussi di lavoro per l'analisi intelligente dei documenti
Risposte Visive alle Domande (VQA)
- Configurazione di dataset e benchmark VQA
- Addestramento ed esame di modelli multimodali
- Sviluppo di applicazioni interattive VQA
Progettazione di Agenti Multimodali
- Principi del progetto degli agenti con ragionamento multimodale
- Integrazione percezione, linguaggio e azione
- Deploying agents per casi d'uso reali
Integrazioni Avanzate e Ottimizzazione
- Tuning dettagliato di modelli multimodali con Ollama
- Ottimizzazione delle prestazioni dell'inferenza
- Considerazioni su scalabilità e deploy
Riepilogo ed Esecuzione Successiva
Requisiti
- Forte comprensione dei concetti di apprendimento automatico
- Esperienza con framework di deep learning come PyTorch o TensorFlow
- Familiarità con il processing del linguaggio naturale e la visione artificiale
Pubblico
- Ingegneri dell'apprendimento automatico
- Ricercatori di intelligenza artificiale
- Sviluppatori di prodotti che integrano flussi di lavoro di visione e testo
21 ore