Nel 2019, OpenAI si è rifiutata di rilasciare la ricerca completa sullo sviluppo di GPT2 per timore che fosse “troppo pericolosa” per essere resa pubblica. Giovedì scorso, il più grande finanziatore di OpenAI, Microsoft, ha fatto una dichiarazione simile in merito alla sua nuova intelligenza artificiale per la sintesi vocale VALL-E 2.
Il sistema VALL-E 2 è un’intelligenza artificiale per la sintesi vocale a zero scatti (TTS), in grado cioè di ricreare un parlato iperrealistico sulla base di pochi secondi di audio campione. Secondo il team di ricerca, VALL-E 2 “supera i sistemi precedenti in termini di robustezza del parlato, naturalezza e somiglianza con il parlante. È il primo del suo genere a raggiungere la parità con l’uomo in questi parametri”
Secondo quanto riferito, il sistema è in grado di gestire anche frasi difficili da pronunciare a causa della loro complessità strutturale o delle frasi ripetitive, come gli scioglilingua.
I potenziali utilizzi di questo sistema sono molteplici, come ad esempio permettere alle persone affette da afasia o sclerosi laterale amiotrofica (comunemente nota come SLA o morbo di Lou Gehrig) di tornare a parlare, anche se attraverso un computer, così come l’uso nell’istruzione, nell’intrattenimento, nel giornalismo, nei chatbot e nella traduzione, o come funzioni di accessibilità e “sistemi di risposta vocale interattiva”, come Siri. Tuttavia, il team riconosce anche numerose opportunità di utilizzo improprio della tecnologia da parte del pubblico, “come ad esempio la contraffazione dell’identificazione vocale o l’impersonificazione di uno specifico oratore”
Per questo motivo l’intelligenza artificiale sarà disponibile solo a scopo di ricerca. “Al momento non abbiamo in programma di incorporare VALL-E 2 in un prodotto o di estendere l’accesso al pubblico”, ha scritto il team. “Se sospetti che VALL-E 2 venga utilizzato in modo abusivo o illegale o che violi i tuoi diritti o quelli di altre persone, puoi segnalarlo al portale Report Abuse”
Microsoft non è certo l’unica a cercare di addestrare i computer a parlare come gli esseri umani. Chirp di Google, Iconic Voices di ElevenLabs e Voicebox di Meta mirano tutti a svolgere funzioni simili.
Tuttavia, questi sistemi sono stati oggetto di critiche etiche in quanto sono stati ripetutamente utilizzati per truffare vittime ignare emulando la voce di una persona cara o di una famosa celebrità. Inoltre, a differenza delle immagini generate, attualmente non esiste un modo per “filigranare” efficacemente l’audio generato dall’intelligenza artificiale.
Leggi di più su www.digitaltrends.com
Consulente di comunicazione, social media, SEO ed e-commerce. Grafico, web designer, impaginatore, copertinista e addentrato quanto basta in tutto ciò che riguarda l’Internet. Appassionato di narrativa, arti visive e cinema di menare. Nerd. Gamer.
Vivo e lavoro come freelancer in provincia di Taranto.