Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Struttura del corso
Introduzione alla Sintesi Vocale e al Cloning delle Voci
- Panoramica della sintesi vocale da testo (TTS) e della sintesi vocale neurale
- Cloning delle voci vs generazione del parlato: casi d'uso e confini
- Modelli chiave: Tacotron, WaveNet, FastSpeech, VITS
Lavoro con Piattaforme Commerciali
- Utilizzo di ElevenLabs e Resemble AI
- Creazione, cloning ed editing delle voci
- Accesso API e workflow TTS
Sviluppo con Strumenti Open-Source
- Installazione e configurazione di Coqui TTS
- Addestramento di voci personalizzate e gestione dei dataset
- Generazione del parlato con controllo fine (intonazione, velocità, emozioni)
Preparazione dei Dati e Dataset delle Voci Management
- Raccolta ed estrazione di campioni vocali
- Segmentazione, etichettatura e allineamento delle trascrizioni
- Sourcing etico e consenso vocale
Integrazione nell'Applicazione
- Incorporamento del TTS nei siti web ed applicazioni
- Creazione di sistemi IVR e bot interattivi
- Generazione del dialogo sintetico per video e giochi
Valutazione della Qualità e Realismo
- Test MOS (Media Opinion Score) e di intelligibilità
- Controllo dell'espressività e della prosodia
- Confronto tra latenza, fedeltà e realismo
Considerazioni Etiche, Legalità e GoGovernance
- Rischi di deepfake e uso responsabile
- Consenso, attribuzione ed implicazioni del diritto d'autore
- Regolamentazione e politiche organizzative
Riepilogo e Prossimi Passaggi
Requisiti
- Comprendere i fondamenti dell'apprendimento automatico
- Familiarità con i formati dei file audio e gli strumenti di editing
- Conoscenze di base della programmazione Python
Pubblico
- Sviluppatori e ingegneri AI interessati alla sintesi vocale
- Creatori di contenuti e tecnologi mediatici che esplorano la generazione della voce
- Team R&D che costruiscono sistemi audio personalizzati o dinamici
14 ore