Struttura del corso

Introduzione all'intelligenza artificiale multimodale

  • Cos'è l'intelligenza artificiale multimodale?
  • Sfide e applicazioni principali
  • Panoramica dei principali modelli multimodali

Elaborazione del testo e comprensione del linguaggio naturale

  • Sfruttamento di LLM per agenti AI basati su testo
  • Comprensione dell'ingegneria rapida per attività multimodali
  • Ottimizzazione dei modelli di testo per applicazioni specifiche del dominio

Riconoscimento e generazione di immagini

  • Elaborazione delle immagini con l'intelligenza artificiale: classificazione, didascalia e rilevamento degli oggetti
  • Generazione di immagini con modelli di diffusione (Stable Diffusion, DALLE)
  • Integrazione dei dati delle immagini con modelli basati sul testo

Elaborazione vocale e audio

  • Riconoscimento vocale con Whisper ASR
  • Tecniche di sintesi testo-voce (TTS)
  • Migliorare l'interazione degli utenti con l'intelligenza artificiale basata sulla voce

Integrazione di input multimodali

  • Creazione di pipeline AI per l'elaborazione di più tipi di input
  • Tecniche di fusione per combinare dati di testo, immagini e parlato
  • Applicazioni reali di agenti di intelligenza artificiale multimodali

Distribuzione multimodale AI Agents

  • Creazione di soluzioni di intelligenza artificiale multimodali basate su API
  • Ottimizzazione dei modelli per prestazioni e scalabilità
  • Best practice per l'implementazione dell'intelligenza artificiale multimodale in produzione

Considerazioni etiche e tendenze future

  • Bias ed equità nell'intelligenza artificiale multimodale
  • Problemi di privacy con dati multimodali
  • Sviluppi futuri nell'intelligenza artificiale multimodale

Riepilogo e passaggi successivi

Requisiti

  • Una comprensione dei fondamenti dell'apprendimento automatico
  • Esperienza con la programmazione Python
  • Familiarità con framework di apprendimento profondo (ad esempio, TensorFlow, PyTorch)

Pubblico

  • Sviluppatori di intelligenza artificiale
  • Ricercatori
  • Ingegneri multimediali
 21 ore

Numero di Partecipanti


Prezzo per Partecipante

Corsi in Arrivo

Categorie relative