Google consentirà agli amministratori del web di bloccare i sistemi di scraping dei siti per l’addestramento dell’intelligenza artificiale

 

Dopo che OpenAI ha recentemente annunciato che gli amministratori del web potranno bloccare i suoi sistemi dal crawling dei loro contenuti, tramite un aggiornamento del file robots.txt del sito, anche Google sta cercando di dare ai gestori del web un maggiore controllo sui loro dati e sulla possibilità di consentire ai suoi scrapers di ingerirli per la ricerca generativa dell’intelligenza artificiale.

Come spiegato da Google:

Oggi annunciamo Google-Extended, un nuovo controllo che gli editori web possono utilizzare per gestire se i loro siti contribuiscono a migliorare le API generative di Bard e Vertex AI, comprese le future generazioni di modelli che alimentano questi prodotti”. Utilizzando Google-Extended per controllare l’accesso ai contenuti di un sito, l’amministratore di un sito web può scegliere se aiutare questi modelli di intelligenza artificiale a diventare più precisi e capaci nel tempo”

Si tratta di una formulazione simile a quella utilizzata da OpenAI per cercare di convincere più siti a consentire l’accesso ai dati con la promessa di migliorare i propri modelli.

Infatti, la documentazione di OpenAI spiega che:

Icontenuti recuperati vengono utilizzati solo nel processo di addestramento per insegnare ai nostri modelli come rispondere a una richiesta dell’utente data da questi contenuti (cioè, per rendere i nostri modelli migliori nella navigazione), non per rendere i nostri modelli migliori nella creazione di risposte”

Ovviamente, sia Google che OpenAI vogliono continuare a raccogliere quanti più dati possibili dal web aperto. Ma la capacità di bloccare i modelli di IA dai contenuti ha già visto molti grandi editori e creatori farlo, come mezzo per proteggere il copyright e impedire ai sistemi di IA generativa di replicare il loro lavoro.

Inoltre, con l’intensificarsi delle discussioni sulla regolamentazione dell’IA, i grandi player possono vedere la scritta sul muro, che alla fine porterà a una maggiore applicazione dei set di dati utilizzati per costruire modelli di IA generativa.

Naturalmente per alcuni è troppo tardi: OpenAI, ad esempio, sta già costruendo i suoi modelli GPT (fino a GPT-4) sulla base di dati estratti dal web prima del 2021. Quindi alcuni modelli linguistici di grandi dimensioni (LLM) erano già stati costruiti prima che queste autorizzazioni fossero rese pubbliche. Tuttavia, sembra che in futuro gli LLM avranno a disposizione un numero significativamente inferiore di siti web a cui potranno accedere per costruire i loro sistemi di intelligenza artificiale generativa.

Questo diventerà una necessità, anche se sarà interessante vedere se questo comporterà anche considerazioni di tipo SEO, dato che sempre più persone utilizzano l’IA generativa per effettuare ricerche sul web. ChatGPT ha ottenuto l’accesso al web aperto questa settimana, per migliorare l’accuratezza delle sue risposte, mentre Google sta testando l’IA generativa in Search come parte del suo esperimento Search Labs.

Alla fine, ciò potrebbe significare che i siti web vorranno essere inclusi nei set di dati di questi strumenti, per garantire che vengano visualizzati nelle query pertinenti.

In ogni caso, è logico che Google si allinei alle attuali discussioni sullo sviluppo e l’utilizzo dell’IA e si assicuri di dare agli amministratori del web un maggiore controllo sui loro dati, prima che entrino in vigore le leggi.

Google osserva inoltre che con l’espansione delle applicazioni di IA, gli editori web “si troveranno ad affrontare la crescente complessità della gestione dei diversi utilizzi su scala” e che si impegna a collaborare con le comunità del web e dell’IA per esplorare la strada migliore da percorrere, che idealmente porterà a risultati migliori da entrambi i punti di vista.

Per saperne di più su come bloccare il crawling del tuo sito da parte dei sistemi di intelligenza artificiale di Google, clicca qui.

Leggi di più su Social Media Today

Lascia un commento