Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Struttura del corso
Introduzione all'intelligenza artificiale multimodale
- Cos'è l'intelligenza artificiale multimodale?
- Sfide e applicazioni principali
- Panoramica dei principali modelli multimodali
Elaborazione del testo e comprensione del linguaggio naturale
- Sfruttamento di LLM per agenti AI basati su testo
- Comprensione dell'ingegneria rapida per attività multimodali
- Ottimizzazione dei modelli di testo per applicazioni specifiche del dominio
Riconoscimento e generazione di immagini
- Elaborazione delle immagini con l'intelligenza artificiale: classificazione, didascalia e rilevamento degli oggetti
- Generazione di immagini con modelli di diffusione (Stable Diffusion, DALLE)
- Integrazione dei dati delle immagini con modelli basati sul testo
Elaborazione vocale e audio
- Riconoscimento vocale con Whisper ASR
- Tecniche di sintesi testo-voce (TTS)
- Migliorare l'interazione degli utenti con l'intelligenza artificiale basata sulla voce
Integrazione di input multimodali
- Creazione di pipeline AI per l'elaborazione di più tipi di input
- Tecniche di fusione per combinare dati di testo, immagini e parlato
- Applicazioni reali di agenti di intelligenza artificiale multimodali
Distribuzione multimodale AI Agents
- Creazione di soluzioni di intelligenza artificiale multimodali basate su API
- Ottimizzazione dei modelli per prestazioni e scalabilità
- Best practice per l'implementazione dell'intelligenza artificiale multimodale in produzione
Considerazioni etiche e tendenze future
- Bias ed equità nell'intelligenza artificiale multimodale
- Problemi di privacy con dati multimodali
- Sviluppi futuri nell'intelligenza artificiale multimodale
Riepilogo e passaggi successivi
Requisiti
- Una comprensione dei fondamenti dell'apprendimento automatico
- Esperienza con la programmazione Python
- Familiarità con framework di apprendimento profondo (ad esempio, TensorFlow, PyTorch)
Pubblico
- Sviluppatori di intelligenza artificiale
- Ricercatori
- Ingegneri multimediali
21 ore