Almeno in apparenza, l’ultimo progresso dell’intelligenza artificiale di Meta non sembra un passo importante.
Oggi Meta ha pubblicato una panoramica del suo nuovo sistema di intelligenza artificiale “Voicebox”, che consentirà agli utenti di tradurre il testo in audio, in una serie di stili e voci.
Vi presentiamo Voicebox, un nuovo sistema vocale generativo basato sul Flow Matching, un nuovo metodo proposto da Meta AI.
Èin grado di sintetizzare il parlato in sei lingue, eseguire la rimozione del rumore, modificare i contenuti, trasferire lo stile audio e molto altro ancora.
Maggiori dettagli su questo lavoro ed esempi ⬇️-Meta
AI (@MetaAI) 16 giugno 2023
Come presentato in questa clip riassuntiva, il sistema Voicebox è in grado di accettare input testuali e tradurli in audio, con diverse opzioni vocali, consentendo una traduzione da testo ad audio più avanzata, ma con requisiti di apprendimento ed elaborazione ridotti rispetto ad altre offerte simili.
Anche se, almeno in apparenza, non è molto diverso dagli strumenti text-to-audio a cui siamo ormai abituati – che ci piacciano o meno – su TikTok e altre app.
Le traduzioni di Voicebox hanno un suono piuttosto simile e sono pronto a scommettere che Meta non mi permetterà di usare la voce di Rocket Raccoon o di un Transformer in queste nuove traduzioni.
Ma il sistema Voicebox è anche qualcosa di più di un semplice strumento di traduzione diretta da testo a voce.
Come spiegato da Meta:
“Voicebox è in grado di produrre clip audio di alta qualità e di modificare l’audio preregistrato, ad esempio eliminando i clacson delle auto o l’abbaiare di un cane, il tutto preservando il contenuto e lo stile dell’audio. Il modello è anche multilingue e può produrre parlato in sei lingue. In futuro, modelli di intelligenza artificiale generativa multiuso come Voicebox potrebbero dare voci naturali agli assistenti virtuali e ai personaggi non giocanti nel metaverso. Potrebbero consentire alle persone ipovedenti di ascoltare i messaggi scritti degli amici letti dall’IA con la loro voce, dare ai creatori nuovi strumenti per creare e modificare facilmente le tracce audio dei video e molto altro ancora”
Come nota Meta, Voicebox consente anche di utilizzare modelli di voce per la traduzione, in modo da poter utilizzare un clip audio di un’altra persona per far sembrare la traduzione text-to-speech come se stesse parlando, attraverso pochi secondi di input audio.
Questo porterà senza dubbio a una nuova serie di deepfakes, anche se strumenti simili esistono già. Solo che non sono gli stessi, e Meta dice che non sono altrettanto validi, di questo nuovo processo.
Il vero vantaggio di Voicebox, in senso lato, sarà la traduzione e la possibilità di ottenere variazioni semplificate e dal suono nativo degli input testuali in diverse lingue. Questo potrebbe aprire nuove opportunità di mercato, mentre la modellazione avanzata del sistema faciliterà casi d’uso e processi più ampi, che potrebbero fornire altri vantaggi chiave.
Ma Meta è anche consapevole dei rischi.
In questa fase, Meta non sta rilasciando il codice sorgente o l’app codice sorgente o l’applicazione al pubblico, citando “i potenziali rischi di uso improprio”. Spera di trovare casi d’uso più pratici e validi per la tecnologia nel corso del tempo, quindi l’annuncio di oggi è più un’informazione che un lancio vero e proprio.
Per saperne di più sul progetto Voicebox di Meta, visitate il sito.
Leggi di più su Social Media Today
Consulente di comunicazione, social media, SEO ed e-commerce. Grafico, web designer, impaginatore, copertinista e addentrato quanto basta in tutto ciò che riguarda l’Internet. Appassionato di narrativa, arti visive e cinema di menare. Nerd. Gamer.
Vivo e lavoro come freelancer in provincia di Taranto.


