Grazie per aver inviato la tua richiesta! Uno dei nostri team membri ti contatterà a breve.
Grazie per aver inviato il tuo prenotazione! Uno dei nostri team membri ti contatterà a breve.
Struttura del corso
Panoramica delle Tecnologie Speech Recognition
- Storia ed evoluzione della riconoscimento vocale
- Modelli acustici, modelli linguistici e decoding
- Architetture moderne: RNNs, transformer e Whisper
Preelaborazione Audio e Baseline della Trascrizione
- Gestione dei formati audio e delle frequenze di campionamento
- Pulizia, ritaglio e segmentazione dell'audio
- Generazione di testo dall'audio: in tempo reale vs batch
Pratica con Whisper ed altre API
- Installazione e utilizzo di OpenAI Whisper
- Invocare API cloud (Google, Azure) per la trascrizione
- Confronto delle prestazioni, latenza e costi
Lingue, Accenti ed Adattamento di Dominio
- Lavorare con lingue multiple ed accenti
- Vocabolari personalizzati e tolleranza al rumore
- Gestione del linguaggio legale, medico o tecnico
Formattazione dell'Output ed Integrazione
- Aggiunta di timestamp, punteggiatura e etichette degli speaker
- Esportazione in formati testo, SRT o JSON
- Integrare le trascrizioni nelle applicazioni o nei database
Laboratori di Implementazione Use Case
- Trascrivere incontri, interviste o podcast
- Sistemi comandi vocale-testo
- Caption in tempo reale per stream video/audio
Valutazione, Limitazioni ed Etica
- Metriche di precisione e benchmark dei modelli
- Bias e equità nei modelli vocali
- Considerazioni sulla privacy e conformità
Riepilogo e Passaggi Successivi
Requisiti
- Una comprensione dei concetti generali di intelligenza artificiale e machine learning
- Familiarità con i formati e gli strumenti per file audio o multimedia
Pubblico
- Scienziati dei dati e ingegneri AI che lavorano con dati vocali
- Sviluppatori software che creano applicazioni basate sulla trascrizione
- Organizzazioni che esplorano la riconoscimento vocale per l'automazione
14 ore