L’intelligenza artificiale di Google ha appena sviluppato capacità uditive

I chatbot AI sono già in grado di “vedere” il mondo attraverso immagini e video. Ora, però, Google ha annunciato la funzionalità di audio-parlato come parte del suo ultimo aggiornamento di Gemini Pro. Con Gemini 1.5 Pro, il chatbot è ora in grado di “ascoltare” i file audio caricati nel suo sistema e di estrarre le informazioni testuali.

L’azienda ha reso disponibile questa versione di LLM come anteprima pubblica sulla sua piattaforma di sviluppo Vertex AI. Ciò consentirà a un maggior numero di utenti aziendali di sperimentare la funzione e di ampliarne la base dopo il lancio privato avvenuto a febbraio, quando il modello è stato annunciato per la prima volta. Inizialmente era stato offerto solo a un gruppo limitato di sviluppatori e clienti aziendali.

1. Comprensione di un lungo video

Ho caricato l’intera gara di schiacciate dell’NBA di ieri sera e ho chiesto quale fosse la schiacciata con il punteggio più alto.

Gemini 1.5 è stato incredibilmente in grado di trovare la specifica schiacciata perfetta da 50 e i relativi dettagli solo grazie alla comprensione di un lungo video contestuale! pic.twitter.com/01iUfqfiAO

– Rowan Cheung (@rowancheung) 18 febbraio 2024

Google ha condiviso i dettagli dell’aggiornamento durante la conferenza Cloud Next, che si sta svolgendo in questi giorni a Las Vegas. Dopo aver definito Gemini Ultra LLM, che alimenta il chatbot Gemini Advanced, il modello più potente della famiglia Gemini, Google definisce Gemini 1.5 Pro il modello generativo più potente. L’azienda ha aggiunto che questa versione è in grado di apprendere meglio senza ulteriori modifiche al modello.

The Google Gemini AI logo.
  • Save

Gemini 1.5 Pro è multimodale, in quanto è in grado di interpretare diversi tipi di audio in testo, tra cui programmi televisivi, film, trasmissioni radiofoniche e registrazioni di teleconferenze. È anche multilingue, in quanto può elaborare audio in diverse lingue. L’LLM potrebbe anche essere in grado di creare trascrizioni da video; tuttavia, la sua qualità potrebbe essere inaffidabile, come riportato da TechCrunch.

Quando è stato annunciato, Google ha spiegato che Gemini 1.5 Pro utilizzava un sistema di token per elaborare i dati grezzi. Un milione di token equivale a circa 700.000 parole o 30.000 righe di codice. In forma multimediale, equivale a un’ora di video o a circa 11 ore di audio.

Ci sono state alcune dimostrazioni private in anteprima di Gemini 1.5 Pro che dimostrano come il LLM sia in grado di trovare momenti specifici nella trascrizione di un video. Ad esempio, l’appassionato di AI Rowan Cheung ha ottenuto l’accesso anticipato e ha spiegato come la sua demo abbia trovato un’azione esatta in una gara sportiva e abbia riassunto l’evento, come si vede nel tweet incorporato qui sopra.

Tuttavia, Google ha notato che altri utilizzatori iniziali, tra cui United Wholesale Mortgage, TBS e Replit, stanno optando per casi d’uso più orientati all’impresa, come la sottoscrizione di mutui, l’automazione dell’etichettatura dei metadati e la generazione, la spiegazione e l’aggiornamento del codice.

Leggi di più su www.digitaltrends.com

Articoli correlati

Share via
Copy link