Struttura del corso

Introduzione a Multimodal AI

  • Panoramica dell'intelligenza artificiale multimodale e delle applicazioni nel mondo reale
  • Sfide nell'integrazione di testo, immagini e dati audio
  • Ricerca e progressi all'avanguardia

Elaborazione dei dati e ingegneria delle funzionalità

  • Gestione di set di dati di testo, immagini e audio
  • Tecniche di pre-elaborazione per l'apprendimento multimodale
  • Strategie di estrazione delle caratteristiche e fusione dei dati

Costruzione di modelli multimodali con PyTorch e Hugging Face

  • Introduzione a PyTorch per l'apprendimento multimodale
  • Utilizzo di Hugging Face trasformatori per attività di PNL e visione
  • Combinazione di diverse modalità in un modello di intelligenza artificiale unificato

Implementazione di Speech, Vision e Text Fusion

  • Integrazione OpenAI Whisper per il riconoscimento vocale
  • Applicazione della DeepSeek-Vision per l'elaborazione delle immagini
  • Tecniche di fusione per l'apprendimento cross-modale

Formazione e ottimizzazione Multimodal AI dei modelli

  • Strategie di addestramento del modello per l'intelligenza artificiale multimodale
  • Tecniche di ottimizzazione e messa a punto degli iperparametri
  • Affrontare i pregiudizi e migliorare la generalizzazione del modello

Distribuzione di Multimodal AI in applicazioni del mondo reale

  • Esportazione di modelli per uso produttivo
  • Distribuzione di modelli di intelligenza artificiale su piattaforme cloud
  • Monitoraggio delle prestazioni e manutenzione del modello

Argomenti avanzati e tendenze future

  • Apprendimento zero-shot e few-shot nell'intelligenza artificiale multimodale
  • Considerazioni etiche e sviluppo responsabile dell'intelligenza artificiale
  • Tendenze emergenti nella ricerca sull'intelligenza artificiale multimodale

Riepilogo e passaggi successivi

Requisiti

  • Ottima conoscenza dei concetti di apprendimento automatico e apprendimento profondo
  • Esperienza con framework di intelligenza artificiale come PyTorch o TensorFlow
  • Familiarità con l'elaborazione di dati di testo, immagini e audio

Pubblico

  • Sviluppatori di intelligenza artificiale
  • Ingegneri di apprendimento automatico
  • Ricercatori
 21 ore

Numero di Partecipanti


Prezzo per Partecipante

Corsi in Arrivo

Categorie relative