Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Struttura del corso
Panoramica delle Tecnologie Speech Recognition
- Storia ed evoluzione della riconoscimento vocale
- Modelli acustici, modelli linguistici e decoding
- Architetture moderne: RNNs, transformer e Whisper
Preelaborazione Audio e Baseline della Trascrizione
- Gestione dei formati audio e delle frequenze di campionamento
- Pulizia, ritaglio e segmentazione dell'audio
- Generazione di testo dall'audio: in tempo reale vs batch
Pratica con Whisper ed altre API
- Installazione e utilizzo di OpenAI Whisper
- Invocare API cloud (Google, Azure) per la trascrizione
- Confronto delle prestazioni, latenza e costi
Lingue, Accenti ed Adattamento di Dominio
- Lavorare con lingue multiple ed accenti
- Vocabolari personalizzati e tolleranza al rumore
- Gestione del linguaggio legale, medico o tecnico
Formattazione dell'Output ed Integrazione
- Aggiunta di timestamp, punteggiatura e etichette degli speaker
- Esportazione in formati testo, SRT o JSON
- Integrare le trascrizioni nelle applicazioni o nei database
Laboratori di Implementazione Use Case
- Trascrivere incontri, interviste o podcast
- Sistemi comandi vocale-testo
- Caption in tempo reale per stream video/audio
Valutazione, Limitazioni ed Etica
- Metriche di precisione e benchmark dei modelli
- Bias e equità nei modelli vocali
- Considerazioni sulla privacy e conformità
Riepilogo e Passaggi Successivi
Requisiti
- Una comprensione dei concetti generali di intelligenza artificiale e machine learning
- Familiarità con i formati e gli strumenti per file audio o multimedia
Pubblico
- Scienziati dei dati e ingegneri AI che lavorano con dati vocali
- Sviluppatori software che creano applicazioni basate sulla trascrizione
- Organizzazioni che esplorano la riconoscimento vocale per l'automazione
14 ore