Struttura del corso

Introduzione ai Modelli Multimodali Mistral

  • Panoramica di Mistral Medium e delle sue capacità multimodalità
  • Modelli OCR/documenti e casi d'uso
  • Integrazione con gli ecosistemi open source

Pipeline OCR e Vision

  • Fondamenti dell'OCR con i modelli Mistral
  • Preprocessing di immagini e documenti scannerizzati
  • Estrazione di testo strutturato da immagini

Comprensione Documentale

  • Progettazione di pipeline NLP per documenti
  • Riconoscimento delle entità, riepilogo e classificazione
  • Collegamento cross-modale di dati testuali e visivi

Sistemi di Ricerca e Applicazioni di Conoscenza

  • Sistemi di ricerca vision-testo
  • Costruzione di ricerche semantiche con output OCR
  • Repository di documenti aziendali

Applicazioni Assistive e Interattive

  • Progettazione dell'interfaccia utente per assistenti multimodali
  • Applicazioni di accessibilità (ad esempio, vision-to-text)
  • Strumenti produttivi real-world

Prestazioni e Ottimizzazione

  • Scalabilità delle pipeline multimodali
  • Ottimizzazione delle prestazioni di inferenza
  • Valutazione dei compromessi tra accuratezza ed efficienza

Casi Studio e Future Direzioni

  • Applicazioni industriali dell'IA multimodale
  • Tendenze di ricerca nell'OCR e nell'AI documentaria
  • Considerazioni etiche sull'IA nelle attività vision-testo

Riepilogo e Prossimi Passi

Requisiti

  • Una comprensione dei concetti di elaborazione del linguaggio naturale
  • Esperienza con Python e framework ML
  • Familiarità con i principi base della computer vision

Pubblico

  • Team prodotto
  • Ricercatori ML
  • Ingegneri ML applicati
 14 Ore

Numero di Partecipanti


Prezzo per Partecipante

Corsi in Arrivo

Categorie relative