Oltre il sogno digitale: l'AI alla conquista della realtà
OpenAI, Stability e Google si scontrano con il problema di produrre materiale aderente al mondo reale. Tre approcci diversi, ma Gemini inciampa.
“Reality is that which, when you stop believing in it, doesn't go away”
Philip K. Dick
Quando dialogate con un’intelligenza artificiale, lei sta effettivamente sognando. Nel senso che non ha la percezione di una realtà esterna. Risponde come in un sogno cercando le possibili risposte che collimano con quello che ha imparato. Indipendentemente da quello che succede all’esterno. Questo è un problema e bisogna risolverlo.
OpenAI ha recentemente annunciato Sora, un’intelligenza artificiale in grado di creare un minuto di video a partire da un testo. La cosa incredibile è notare quanto questi video siano fedeli alle leggi fisiche. Sora sta ancora sognando, nel senso che il prodotto non è legato a quello che succede in questo momento nel mondo. Ma i video sono plausibili. Le persone non si trasformano una nell’altra. Escono dallo schermo, e poi rientrano senza cambiare forma. Il contesto non cambia, se non coerentemente con le leggi della fisica. È un sogno, ma è un sogno realistico. Perché OpenAI è riuscito dove in tanti hanno fallito? Perché aveva accesso a più dati. Ha insegnato all’intelligenza artificiale a disegnare partendo da una mole enorme di dati. Ma dati sintetici. Prodotti da Unreal Engine, uno di quei programmi usati dai videogiochi per simulare i mondi tridimensionali. Questo ha permesso di generare molti più dati su cui addestrare la rete neurale. E il risultato è stato ottimo. Chiariamo, Sora non usa Unreal Engine per produrre i suoi video. Finito il periodo di addestramento l’intelligenza artificiale genera i video direttamente. Questo è impressionante. Possiamo dire che con Sora, le intelligenze artificiali di OpenAI hanno fatto un significativo passo verso il mondo reale. Sognano lo stesso, ma fanno sogni realistici.
Quel che resta della creatività
Rivediamo in maniera critica la recente intervista ad Asimov. Esploriamo i limiti dell'AI nella generazione creativa, per comprendere come l'essere umano sia ancora indispensabile nel depositare un seme che l'AI poi sviluppa.
Stability AI ha recentemente annunciato Stable Diffusion 3, un’intelligenza artificiale in grado di creare un’immagine a partire da un testo. Come Stable Diffusion 2, come Dall-e, come Midjourney. Ma in questo caso l’immagine riproduce la richiesta fatta. Pare cosa da poco, ma è una differenza fondamentale. Gli altri creatori di immagini sono imprecisi, e questo è grave. Se l’utente chiede che nell’immagine ci sia una particolare scritta, questa comparirà sempre scorretta. La posizione relativa delle persone è spesso sbagliata. Se hai chiesto che un personaggio dica qualcosa, magari con un fumetto, il fumetto ci sarà, ma cosa dice e quale personaggio parla è casuale. Insomma, così ha un uso piuttosto limitato. Pensiamo anche a un’intelligenza artificiale che scriva un libro, e poi aggiunga un’illustrazione per chiarire quello che vuole dire. L’illustrazione deve essere fedele all’idea dell’autore. Per esempio immaginiamo un autore (artificiale o umano) che genera i piani per una casa. Descrive le stanze, le relative posizioni, i materiali. Ma poi deve accludere le mappe, i disegni. E questi devono essere consistenti con quanto descritto nel testo. Non so se Stable Diffusion 3 lo faccia, ma di certo va in quella direzione. Né sappiamo ancora come funzioni questo software. Ma osserviamo che anche in questo caso l’industria cerca di aumentare l’aderenza alla realtà. La realtà della richiesta fatta. Per fare un esempio, l’immagine di copertina avrebbe dovuto rappresentare un robot che cercava di mettere un pomello tondo in un buco triangolare. Il classico gioco per bambini, per indicare la necessità di essere aderenti alla realtà. Il risultato mostra molto bene i limiti della tecnologia attuale che Stability AI sta cercando di superare.
Alphabet (cioè Google) ha recentemente rilasciato, senza tanta fanfara, Gemini AI image generation, che avrebbe dovuto permettere agli utenti di Gemini di produrre immagini. Come Dall-e 3 per gli utenti di ChatGPT. Il risultato è stato terribile al punto che hanno dovuto ritirarlo immediatamente, e Sundar Pichai, il CEO di Google, si è dovuto personalmente scusare per quanto successo. Lo ripresenteranno nelle prossime settimane.
Che cosa è successo? Un utente ha chiesto delle immagini di soldati tedeschi durante la Seconda guerra mondiale. Magari stava scrivendo un articolo storico. Il risultato: immagini con soldati di colore e altri asiatici. Un altro ha chiesto un’immagine del papa e ha ottenuto una papessa di colore (da cui il dubbio: ma Gemini è stato addestrato sui tarocchi?). E quando un utente ha chiesto un’immagine di vichinghi, sono comparsi dei nativi americani.
Perché questo è accaduto? C’è un motivo tecnico e uno politico. Il motivo tecnico è che sia ChatGPT che Gemini, quando fanno una richiesta per un disegno alla parte di intelligenza artificiale che si occupa di creare le immagini (Dall-e e Gemini AI image generation), modificano la descrizione. Aggiungono degli elementi che non sono stati specificatamente richiesti dall’utente. Non posso illustrare questo con Gemini Image che è stato ritirato temporaneamente, ma lo faccio con ChatGPT. Se gli chiedo di disegnarmi un tramonto mi disegna questo:
Ma se vado a leggere il comando effettivo che ChatGPT ha dato a Dall-e3 non leggo: “un tramonto”, ma (copio letteralmente) “A breathtaking landscape at sunset, with the horizon stretching wide across the canvas. The sky, a masterpiece of vibrant oranges, pinks, and purples, reflects the sun's final show of the day. Below, a serene body of water mirrors the spectacle above, adding depth and tranquility to the scene. Silhouettes of distant mountains provide a dramatic backdrop, their outlines softened by the fading light. Foreground details include the gentle sway of tall grasses and a scattering of wildflowers, enhancing the natural beauty of this idyllic setting”.
E tutto il resto da dove viene? Ma da ChatGPT, ovviamente. Io ho fatto una richiesta, ma lui l’ha modificata. Migliorandola, forse. Me è un’azione pericolosa. In questo caso non è un problema. Al massimo una persona che non ha esperienza di tramonti potrebbe pensare che tutti i tramonti siano così belli.
Nel caso dei soldati dipinti dalla AI di Google, Gemini ha aggiunto che l’immagine doveva essere inclusiva. Cioè il contrario di razzista, includere persone di altre etnie. Senza rendersi conto che nel fare questo stava generando un falso storico. Che Google abbia un bias a favore dell’ideologia woke è ben noto. Al punto che l’Economist si è chiesto se Gemini fosse addestrato specificatamente per essere “woke”, o fosse “woke” come effetto collaterale di essere stato addestrato da Google.
Soldati della Wehrmacht asiatici, papesse di colore, vichinghi nativi americani. Tutto molto pittoresco. Ma il problema è serio: le intelligenze artificiali devono essere addestrate sulla realtà, per produrre immagini aderenti alla realtà (tranne quando vogliamo specificatamente allontanarcene). E quando la realtà non piace a un’azienda, e un utente fa una domanda su questo argomento, manipolare la risposta per educarlo non è la soluzione giusta.
È inevitabile avere una posizione politica, ce l’hanno tutti gli esseri umani e ce l’hanno pure i chatbot. E non è possibile creare un’intelligenza artificiale completamente neutrale e totalmente fedele alla realtà. Questo perché, per quanto riguarda molti eventi, nessuno sa con precisione quale sia effettivamente la realtà dei fatti. Ma lo sforzo deve essere verso il realismo, non verso l’interpretazione che fa comodo alla nostra posizione politica. E dunque Sundar Pichai ha fatto bene a scusarsi. Speriamo nella prossima versione: sarà messa sotto i riflettori e dovrà fare meglio.