Struttura del corso

Introduzione alla Sintesi Vocale e al Cloning delle Voci

  • Panoramica della sintesi vocale da testo (TTS) e della sintesi vocale neurale
  • Cloning delle voci vs generazione del parlato: casi d'uso e confini
  • Modelli chiave: Tacotron, WaveNet, FastSpeech, VITS

Lavoro con Piattaforme Commerciali

  • Utilizzo di ElevenLabs e Resemble AI
  • Creazione, cloning ed editing delle voci
  • Accesso API e workflow TTS

Sviluppo con Strumenti Open-Source

  • Installazione e configurazione di Coqui TTS
  • Addestramento di voci personalizzate e gestione dei dataset
  • Generazione del parlato con controllo fine (intonazione, velocità, emozioni)

Preparazione dei Dati e Dataset delle Voci Management

  • Raccolta ed estrazione di campioni vocali
  • Segmentazione, etichettatura e allineamento delle trascrizioni
  • Sourcing etico e consenso vocale

Integrazione nell'Applicazione

  • Incorporamento del TTS nei siti web ed applicazioni
  • Creazione di sistemi IVR e bot interattivi
  • Generazione del dialogo sintetico per video e giochi

Valutazione della Qualità e Realismo

  • Test MOS (Media Opinion Score) e di intelligibilità
  • Controllo dell'espressività e della prosodia
  • Confronto tra latenza, fedeltà e realismo

Considerazioni Etiche, Legalità e GoGovernance

  • Rischi di deepfake e uso responsabile
  • Consenso, attribuzione ed implicazioni del diritto d'autore
  • Regolamentazione e politiche organizzative

Riepilogo e Prossimi Passaggi

Requisiti

  • Comprendere i fondamenti dell'apprendimento automatico
  • Familiarità con i formati dei file audio e gli strumenti di editing
  • Conoscenze di base della programmazione Python

Pubblico

  • Sviluppatori e ingegneri AI interessati alla sintesi vocale
  • Creatori di contenuti e tecnologi mediatici che esplorano la generazione della voce
  • Team R&D che costruiscono sistemi audio personalizzati o dinamici
 14 ore

Numero di Partecipanti


Prezzo per Partecipante

Corsi in Arrivo

Categorie relative