VALL-E di Microsoft imita qualsiasi voce: bastano tre secondi di registrazione
11/1/2023
Traduzione: tradotto automaticamente
DALL-E è seguito da VALL-E: Microsoft e OpenAI hanno creato una nuova intelligenza artificiale (AI) in grado di imitare le voci. Una registrazione vocale di soli tre secondi dovrebbe essere un input sufficiente per l'IA.
Oggi lo sappiamo: Ciò che le foto o i video mostrano non deve necessariamente essere accaduto. Dopo ChatGPT e DALL-E, è anche chiaro che un testo non deve necessariamente provenire dalla penna di un autore o un'immagine dal pennello di un artista. Ora è il turno della voce.
VALL-E è un modello di intelligenza artificiale che Microsoft chiama "Neural Codec Language". Permette di creare profili vocali e di imitare la voce corrispondente. Tre secondi di registrazione della voce sono sufficienti all'IA per imitare ciò che sente in modo naturale e con una colorazione emotiva. Può quindi utilizzare la voce per leggere qualsiasi testo. Anche il suono ambientale della registrazione viene mantenuto. La nuova intelligenza artificiale è ideale per le funzioni text-to-speech, che nel migliore dei casi potrebbero consentire di leggere un libro ad alta voce con la voce dell'autore.
Microsoft è consapevole che l'intelligenza artificiale è in grado di imitare ciò che sente in modo naturale e con colori emotivi.
Microsoft è consapevole del fatto che la tecnologia ha anche un potenziale di uso improprio. Per questo motivo, un protocollo nelle applicazioni future garantirà che i contenuti creati da VALL-E possano essere riconosciuti come tali.
L'AI fornisce risultati impressionanti con gli esempi presentati da Microsoft. Per l'addestramento sono state elaborate 60.000 ore di registrazioni in lingua inglese. Ciò corrisponde a cento volte l'input delle sintesi vocali esistenti.
Puoi ascoltare gli esempi di VALL-E su GitHub https://valle-demo.github.io/. Oltre all'output vocale di VALL-E, sono disponibili anche le registrazioni dei tre secondi di input (prompt dell'altoparlante). Puoi anche ascoltare il suono del testo inserito quando viene pronunciato con la voce originale (Ground Truth). E sotto la voce Baseline puoi sentire come suona la sintesi vocale esistente in confronto. Non è ancora chiaro se, quando e in quale forma sarà possibile utilizzare VALL-E in futuro.
Immagine di copertina: shutterstockMartin Jud
Senior Editor
martin.jud@digitecgalaxus.chLa mia musa ispiratrice si trova ovunque. Quando non la trovo, mi lascio ispirare dai miei sogni. La vita può essere vissuta anche sognando a occhi aperti.