Struttura del corso

Introduzione alla Sintesi Vocale e alla Clonazione della Voce

  • Panoramica sulla sintesi del testo in discorso (TTS) e sulla sintesi vocale neurale
  • Clonazione della voce vs generazione del discorso: casi d'uso e limiti
  • Modelli chiave: Tacotron, WaveNet, FastSpeech, VITS

Lavorare con Piattaforme Commerciali

  • Utilizzo di ElevenLabs e Resemble AI
  • Creazione, clonazione e editing della voce
  • Accesso API e flussi di lavoro testo-discorso

Costruire con Strumenti Open-Source

  • Installazione e configurazione di Coqui TTS
  • Allenamento di voci personalizzate e gestione dei dataset
  • Generazione del discorso con controllo fine (tono, velocità, emozione)

Preparazione dei Dati e Gestione del Dataset Vocale

  • Raccolta e pulizia di campioni vocali
  • Segmentazione, etichettatura e allineamento dei trascritti
  • Fonte etica e consenso vocale

Integrazione delle Applicazioni

  • Inserimento della TTS nei siti web e nelle applicazioni
  • Creazione di sistemi IVR e bot interattivi
  • Generazione di dialoghi sintetici per video e giochi

Valutazione della Qualità e Realismo

  • MOS (Mean Opinion Score) e test di intelligenza
  • Controllo dell'espressività e prosodia
  • Confronto della latenza, fedeltà e realismo

Considerazioni Etiche, Legali e di Governance

  • Rischi dei deepfake e utilizzo responsabile
  • Consenso, attribuzione e implicazioni del copyright
  • Regolamentazione e politiche organizzative

Riepilogo e Prossimi Passi

Requisiti

  • Conoscenza delle basi dell'apprendimento automatico
  • Familiarità con i formati di file audio e gli strumenti di editing
  • Competenze di programmazione in Python di base

Pubblico Target

  • Sviluppatori e ingegneri AI interessati alla sintesi vocale
  • Creatori di contenuti e tecnologi dei media che esplorano la generazione vocale
  • Team R&D che costruiscono sistemi audio personalizzati o dinamici
 14 Ore

Numero di Partecipanti


Prezzo per Partecipante

Corsi in Arrivo

Categorie relative