Meta rivela l’intelligenza artificiale generativa per mondi 3D interattivi

Con il suo sistema WorldGen, Meta sta spostando l’uso dell’intelligenza artificiale generativa per i mondi 3D dalla creazione di immagini statiche a risorse completamente interattive.

Il principale collo di bottiglia nella creazione di esperienze informatiche spaziali immersive – sia per i giochi dei consumatori, che per i gemelli digitali industriali o per le simulazioni di formazione dei dipendenti – è stato a lungo la natura ad alta intensità di lavoro della modellazione 3D. La produzione di un ambiente interattivo richiede in genere team di artisti specializzati che lavorano per settimane.

WorldGen, secondo un nuovo rapporto tecnico dei Reality Labs di Meta, è in grado di generare mondi 3D interattivi e attraversabili a partire da un singolo testo in circa cinque minuti.

Sebbene la tecnologia sia attualmente di livello di ricerca, l’architettura di WorldGen risolve alcuni punti dolenti che hanno impedito all’IA generativa di essere utile nei flussi di lavoro professionali: interattività funzionale, compatibilità con i motori e controllo editoriale.

Gli ambienti di IA generativa diventano mondi 3D realmente interattivi

Il principale difetto di molti modelli text-to-3D esistenti è che privilegiano la fedeltà visiva rispetto alla funzionalità. Approcci come il gaussian splatting creano scene fotorealistiche che appaiono impressionanti in un video, ma spesso mancano della struttura fisica sottostante necessaria all’utente per interagire con l’ambiente. Le risorse prive di dati di collisione o di fisica della rampa hanno poco o nessun valore per la simulazione o il gioco.

WorldGen si discosta da questo percorso dando priorità alla “percorribilità”. Il sistema genera una maglia di navigazione (navmesh) – una maglia poligonale semplificata che definisce le superfici percorribili – insieme alla geometria visiva. In questo modo, una richiesta come “villaggio medievale” non produce solo un insieme di case, ma un layout spazialmente coerente in cui le strade sono libere da ostacoli e gli spazi aperti sono accessibili.

Per le aziende, questa distinzione è fondamentale. Un gemello digitale di una fabbrica o una simulazione di addestramento alla sicurezza per ambienti pericolosi richiedono dati fisici e di navigazione validi.

L’approccio di Meta garantisce che l’output sia “pronto per il motore di gioco”, il che significa che gli asset possono essere esportati direttamente in piattaforme standard come Unity o Unreal Engine. Questa compatibilità consente ai team tecnici di integrare i flussi di lavoro generativi nelle pipeline esistenti, senza dover ricorrere all’hardware di rendering specializzato che altri metodi, come i campi di radianza, spesso richiedono.

La linea di produzione in quattro fasi di WorldGen

I ricercatori di Meta hanno strutturato WorldGen come una pipeline AI modulare che rispecchia i tradizionali flussi di sviluppo per la creazione di mondi 3D.

Il processo inizia con la pianificazione della scena. Un LLM agisce come un ingegnere strutturale, analizzando il testo richiesto dall’utente per generare un layout logico. Determina il posizionamento delle strutture chiave e delle caratteristiche del terreno, producendo un “blocco” – uno schizzo 3D approssimativo – che garantisce che la scena abbia un senso fisico.

La successiva fase di “ricostruzione della scena” costruisce la geometria iniziale. Il sistema condiziona la generazione sulla navmesh, assicurando che l’intelligenza artificiale, mentre “allucina” i dettagli, non inserisca inavvertitamente un masso in una porta o blocchi il percorso di un’uscita di sicurezza.

la “scomposizione della scena”, la terza fase, è forse la più importante per la flessibilità operativa. Il sistema utilizza un metodo chiamato AutoPartGen per identificare e separare i singoli oggetti all’interno della scena, distinguendo un albero dal terreno o una cassa dal pavimento di un magazzino.

In molti modelli generativi “single-shot”, la scena è un unico insieme di geometrie fuse. Separando i componenti, WorldGen permette agli editor umani di spostare, eliminare o modificare risorse specifiche dopo la generazione senza rompere l’intero mondo.

L’ultimo passo è il “miglioramento della scena” che rifinisce le risorse. Il sistema genera texture ad alta risoluzione e perfeziona la geometria dei singoli oggetti per garantire che la qualità visiva regga anche da vicino.

Screenshot of Meta WorldGen in action for using generative AI to create 3D worlds.

Realismo operativo dell’utilizzo dell’IA generativa per creare mondi 3D

L’implementazione di questa tecnologia richiede una valutazione dell’infrastruttura attuale. Gli output di WorldGen sono mesh testurizzate standard. Questa scelta evita il vendor lock-in associato alle tecniche di rendering proprietarie. Ciò significa che un’azienda di logistica che sta costruendo un modulo di formazione VR potrebbe teoricamente utilizzare questo strumento per prototipare rapidamente i layout e poi affidarli a sviluppatori umani per il perfezionamento.

La creazione di una scena completamente texturizzata e navigabile richiede circa cinque minuti su un hardware sufficiente. Per gli studi o i dipartimenti abituati a tempi di realizzazione di molti giorni per il blocco degli ambienti di base, questo guadagno in termini di efficienza cambia letteralmente il mondo.

Tuttavia, la tecnologia ha dei limiti. L’attuale iterazione si basa sulla generazione di una singola vista di riferimento, il che limita la scala dei mondi che può produrre. Non è ancora in grado di generare in modo nativo mondi aperti che si estendono per chilometri senza ricucire più regioni insieme, con il rischio di incongruenze visive.

Inoltre, il sistema attualmente rappresenta ogni oggetto in modo indipendente senza riutilizzarlo, il che potrebbe portare a inefficienze di memoria in scene molto grandi rispetto alle risorse ottimizzate a mano in cui un singolo modello di sedia viene ripetuto cinquanta volte. Le future iterazioni mirano ad affrontare mondi di dimensioni maggiori e a ridurre la latenza.

Confronto tra WorldGen e altre tecnologie emergenti

La valutazione di questo approccio rispetto ad altre tecnologie di intelligenza artificiale emergenti per la creazione di mondi 3D offre una certa chiarezza. World Labs, un concorrente in questo settore, impiega un sistema chiamato Marble che utilizza splats gaussiani per ottenere un elevato fotorealismo. Sebbene siano di grande impatto visivo, queste scene basate sugli splats spesso degradano in qualità quando la telecamera si allontana dal centro e possono diminuire la fedeltà a soli 3-5 metri dal punto di vista.

La scelta di Meta di produrre una geometria basata su mesh posiziona WorldGen come uno strumento per lo sviluppo di applicazioni funzionali piuttosto che per la creazione di contenuti visivi. Supporta la fisica, le collisioni e la navigazione in modo nativo, caratteristiche non negoziabili per un software interattivo. Di conseguenza, WorldGen può generare scene di 50×50 metri che mantengono l’integrità geometrica.

Per i leader dei settori tecnologico e creativo, l’arrivo di sistemi come WorldGen porta con sé nuove ed entusiasmanti possibilità. Le organizzazioni dovrebbero verificare i loro attuali flussi di lavoro 3D per identificare i punti in cui il “blocco” e la prototipazione assorbono più risorse. Gli strumenti generativi sono più indicati per accelerare l’iterazione, piuttosto che tentare di sostituire immediatamente la produzione di qualità finale.

Allo stesso tempo, gli artisti tecnici e i progettisti di livelli dovranno passare dal posizionare ogni vertice manualmente a richiedere e curare i risultati dell’intelligenza artificiale. I programmi di formazione dovrebbero concentrarsi sulla “progettazione dei prompt per il layout spaziale” e sulla modifica delle risorse generate dall’IA per i mondi 3D. Infine, anche se l’output è standard, il processo di generazione richiede molti calcoli. Per l’adozione sarà necessario valutare le capacità di rendering on-premise rispetto a quelle del cloud.

Il 3D generativo è più utile come moltiplicatore di forza per il layout strutturale e la creazione di risorse piuttosto che come sostituto totale della creatività umana. Automatizzando il lavoro fondamentale di costruzione di un mondo, i team aziendali possono concentrare i loro budget sulle interazioni e sulla logica che determinano il valore aziendale.

Leggi di più su www.artificialintelligence-news.com

Dario

Consulente di comunicazione, social media, SEO ed e-commerce. Grafico, web designer, impaginatore, copertinista e addentrato quanto basta in tutto ciò che riguarda l’Internet. Appassionato di narrativa, arti visive e cinema di menare. Nerd. Gamer.

Vivo e lavoro come freelancer in provincia di Taranto.

Copilot: utile strumento o solo un gioco pericoloso?

Copilot battuto: Microsoft si arrende e pulisce Windows 11