Struttura del corso

Panoramica delle Tecnologie di Riconoscimento Vocale

  • Storia ed evoluzione del riconoscimento vocale
  • Modelli acustici, modelli linguistici e decodifica
  • Architetture moderne: RNNs, trasformatori e Whisper

Preprocessing audio e basi della trascrizione

  • Gestione dei formati audio e delle frequenze di campionamento
  • Pulizia, taglio e segmentazione dell'audio
  • Generazione di testo dall'audio: tempo reale vs batch

Esperienza pratica con Whisper e altre API

  • Installazione e utilizzo di OpenAI Whisper
  • Chiamata di API cloud (Google, Azure) per la trascrizione
  • Confronto tra prestazioni, latenza e costi

Lingue, accenti e adattamento del dominio

  • Lavorare con più lingue e accenti
  • Vocabolari personalizzati e tolleranza al rumore
  • Gestione del linguaggio legale, medico o tecnico

Formattazione dell'output e integrazione

  • Aggiunta di timestamp, punteggiatura e etichette dei parlanti
  • Esportazione in formati testo, SRT o JSON
  • Integrazione delle trascrizioni nelle app o nei database

Laboratori di Implementazione dei Caso d'Uso

  • Trascrizione di riunioni, interviste o podcast
  • Sistemi di comando da voce a testo
  • Didascalie in tempo reale per stream video/audio

Valutazione, limiti ed etica

  • Metriche di accuratezza e benchmarking dei modelli
  • Bias e equità nei modelli vocali
  • Considerazioni sulla privacy e la conformità

Riepilogo e Passi Successivi

Requisiti

  • Comprensione dei concetti generali di AI e apprendimento automatico
  • Familiarità con i formati di file audio o multimediali e gli strumenti correlati

Audience

  • Data scientists e ingegneri AI che lavorano con dati vocali
  • Sviluppatori software che costruiscono applicazioni basate su trascrizione
  • Organizzazioni che esplorano il riconoscimento vocale per l'automazione
 14 ore

Numero di Partecipanti


Prezzo per partecipante

Corsi in Arrivo

Categorie relative