Al momento stai visualizzando GPT-4o offre un’interazione AI simile a quella umana con l’integrazione di testo, audio e visione
  • Save

GPT-4o offre un’interazione AI simile a quella umana con l’integrazione di testo, audio e visione

OpenAI ha lanciato il suo nuovo modello di punta, GPT-4o, che integra perfettamente input e output testuali, audio e visivi, promettendo di migliorare la naturalezza delle interazioni con le macchine.

Il GPT-4o, dove la “o” sta per “omni”, è progettato per soddisfare un più ampio spettro di modalità di input e output. “Accetta come input qualsiasi combinazione di testo, audio e immagine e genera qualsiasi combinazione di testo, audio e immagine in uscita”, ha annunciato OpenAI.

Gli utenti possono aspettarsi un tempo di risposta di 232 millisecondi, che rispecchia la velocità di conversazione umana, con un impressionante tempo di risposta medio di 320 millisecondi.

Capacità pionieristiche

L’introduzione del GPT-4o segna un salto di qualità rispetto ai suoi predecessori, in quanto elabora tutti gli input e gli output attraverso un’unica rete neurale. Questo approccio consente al modello di conservare le informazioni critiche e il contesto che in precedenza andavano persi nella pipeline di modelli separati utilizzata nelle versioni precedenti.

Prima di GPT-4o, la “Modalità Voce” era in grado di gestire le interazioni audio con latenze di 2,8 secondi per GPT-3.5 e 5,4 secondi per GPT-4. La configurazione precedente prevedeva tre modelli distinti: uno per la trascrizione dell’audio in testo, un altro per le risposte testuali e un terzo per la conversione del testo in audio. Questa segmentazione portava alla perdita di sfumature come il tono, gli oratori multipli e il rumore di fondo.

Come soluzione integrata, GPT-4o vanta notevoli miglioramenti nella visione e nella comprensione dell’audio. È in grado di svolgere compiti più complessi come armonizzare canzoni, fornire traduzioni in tempo reale e persino generare output con elementi espressivi come risate e canti. Esempi delle sue ampie capacità sono la preparazione ai colloqui, la traduzione di lingue al volo e la generazione di risposte al servizio clienti.

Nathaniel Whittemore, fondatore e CEO di Superintelligent, ha commentato: “Gli annunci di prodotti sono intrinsecamente più divisivi di quelli tecnologici perché è più difficile capire se un prodotto sarà veramente diverso finché non ci si interagisce davvero. E soprattutto quando si tratta di una diversa modalità di interazione uomo-computer, c’è ancora più spazio per le diverse convinzioni sulla sua utilità.

“Detto questo, il fatto che non sia stato annunciato un GPT-4.5 o un GPT-5 distrae le persone dal progresso tecnologico: si tratta di un modello nativamente multimodale. Non si tratta di un modello di testo con l’aggiunta di una voce o di un’immagine; si tratta di un token multimodale in entrata e di un token multimodale in uscita. Questo apre una vasta gamma di casi d’uso che richiederanno un po’ di tempo per filtrare nella coscienza”

Prestazioni e sicurezza

Il GPT-4o eguaglia i livelli di prestazione del GPT-4 Turbo nei compiti di codifica e di testo in inglese, ma è nettamente superiore nelle lingue non inglesi, il che lo rende un modello più inclusivo e versatile. Stabilisce un nuovo punto di riferimento nel ragionamento con un punteggio elevato dell’88,7% su MMLU COT a 0 colpi (domande di conoscenza generale) e dell’87,2% su MMLU no-CoT a 5 colpi.

Il modello eccelle anche nei benchmark audio e di traduzione, superando i precedenti modelli all’avanguardia come Whisper-v3. Nelle valutazioni multilingue e di visione, dimostra prestazioni superiori, migliorando le capacità multilingue, audio e di visione di OpenAI.

image -
  • Save

OpenAI ha incorporato solide misure di sicurezza in GPT-4o, incorporando tecniche per filtrare i dati di addestramento e perfezionando il comportamento attraverso salvaguardie post-addestramento. Il modello è stato valutato attraverso un Preparedness Framework e rispetta gli impegni volontari di OpenAI. Le valutazioni in aree come la cybersicurezza, la persuasione e l’autonomia del modello indicano che GPT-4o non supera un livello di rischio “Medio” in nessuna categoria.

Ulteriori valutazioni sulla sicurezza hanno coinvolto un ampio red teaming esterno con oltre 70 esperti in vari settori, tra cui psicologia sociale, pregiudizi, correttezza e disinformazione. Questo esame completo mira a mitigare i rischi introdotti dalle nuove modalità del GPT-4o.

Disponibilità e integrazione futura

A partire da oggi, le funzionalità di testo e immagine di GPT-4o sono disponibili in ChatGPT, compreso un livello gratuito e funzioni estese per gli utenti Plus. Una nuova modalità vocale alimentata da GPT-4o entrerà in alpha testing all’interno di ChatGPT Plus nelle prossime settimane.

Gli sviluppatori possono accedere a GPT-4o attraverso l’API per attività di testo e di visione, beneficiando della velocità raddoppiata, del prezzo dimezzato e dei limiti di velocità migliorati rispetto a GPT-4 Turbo.

OpenAI prevede di espandere le funzionalità audio e video di GPT-4o a un gruppo selezionato di partner fidati tramite l’API, con una diffusione più ampia prevista nel prossimo futuro. Questa strategia di rilascio graduale mira a garantire test approfonditi di sicurezza e usabilità prima di rendere disponibile al pubblico l’intera gamma di funzionalità.

“È estremamente significativo che abbiano reso questo modello disponibile gratuitamente per tutti, oltre a rendere l’API più economica del 50%. Si tratta di un enorme aumento dell’accessibilità”, ha spiegato Whittemore.

OpenAI invita la comunità a fornire feedback per perfezionare continuamente GPT-4o, sottolineando l’importanza dei suggerimenti degli utenti per identificare e colmare le lacune in cui GPT-4 Turbo potrebbe ancora superare le prestazioni.

Leggi di più su www.artificialintelligence-news.com

Lascia un commento