Struttura del corso

Panoramica delle Tecnologie Speech Recognition

  • Storia ed evoluzione della riconoscimento vocale
  • Modelli acustici, modelli linguistici e decoding
  • Architetture moderne: RNNs, transformer e Whisper

Preelaborazione Audio e Baseline della Trascrizione

  • Gestione dei formati audio e delle frequenze di campionamento
  • Pulizia, ritaglio e segmentazione dell'audio
  • Generazione di testo dall'audio: in tempo reale vs batch

Pratica con Whisper ed altre API

  • Installazione e utilizzo di OpenAI Whisper
  • Invocare API cloud (Google, Azure) per la trascrizione
  • Confronto delle prestazioni, latenza e costi

Lingue, Accenti ed Adattamento di Dominio

  • Lavorare con lingue multiple ed accenti
  • Vocabolari personalizzati e tolleranza al rumore
  • Gestione del linguaggio legale, medico o tecnico

Formattazione dell'Output ed Integrazione

  • Aggiunta di timestamp, punteggiatura e etichette degli speaker
  • Esportazione in formati testo, SRT o JSON
  • Integrare le trascrizioni nelle applicazioni o nei database

Laboratori di Implementazione Use Case

  • Trascrivere incontri, interviste o podcast
  • Sistemi comandi vocale-testo
  • Caption in tempo reale per stream video/audio

Valutazione, Limitazioni ed Etica

  • Metriche di precisione e benchmark dei modelli
  • Bias e equità nei modelli vocali
  • Considerazioni sulla privacy e conformità

Riepilogo e Passaggi Successivi

Requisiti

  • Una comprensione dei concetti generali di intelligenza artificiale e machine learning
  • Familiarità con i formati e gli strumenti per file audio o multimedia

Pubblico

  • Scienziati dei dati e ingegneri AI che lavorano con dati vocali
  • Sviluppatori software che creano applicazioni basate sulla trascrizione
  • Organizzazioni che esplorano la riconoscimento vocale per l'automazione
 14 ore

Numero di Partecipanti


Prezzo per Partecipante

Corsi in Arrivo

Categorie relative