Grazie per aver inviato la tua richiesta! Uno dei nostri team membri ti contatterà a breve.
Grazie per aver inviato il tuo prenotazione! Uno dei nostri team membri ti contatterà a breve.
Struttura del corso
Introduzione all'AI Multimodale e Ollama
- Panoramica dell'apprendimento multimodale
- Sfide principali nell'integrazione visione-linguaggio
- Caratteristiche e architettura di Ollama
Configurazione dell'Ambiente Ollama
- Installazione e configurazione di Ollama
- Lavoro con il deployment locale dei modelli
- Integrazione di Ollama con Python e Jupyter
Lavoro con Input Multimodali
- Integrazione testo-immagine
- Incorporazione di audio e dati strutturati
- Progettazione di pipeline di preprocessing
Aree di Applicazione della Comprensione dei Documenti
- Estrazione di informazioni strutturate da PDF e immagini
- Combining OCR con modelli linguistici
- Sviluppo di flussi di lavoro per l'analisi intelligente dei documenti
Risposte Visive alle Domande (VQA)
- Configurazione di dataset e benchmark VQA
- Addestramento ed esame di modelli multimodali
- Sviluppo di applicazioni interattive VQA
Progettazione di Agenti Multimodali
- Principi del progetto degli agenti con ragionamento multimodale
- Integrazione percezione, linguaggio e azione
- Deploying agents per casi d'uso reali
Integrazioni Avanzate e Ottimizzazione
- Tuning dettagliato di modelli multimodali con Ollama
- Ottimizzazione delle prestazioni dell'inferenza
- Considerazioni su scalabilità e deploy
Riepilogo ed Esecuzione Successiva
Requisiti
- Forte comprensione dei concetti di apprendimento automatico
- Esperienza con framework di deep learning come PyTorch o TensorFlow
- Familiarità con il processing del linguaggio naturale e la visione artificiale
Pubblico
- Ingegneri dell'apprendimento automatico
- Ricercatori di intelligenza artificiale
- Sviluppatori di prodotti che integrano flussi di lavoro di visione e testo
21 ore