Fronte del prompt: i confini aperti dell’intelligenza artificiale generativa

L’AGI apre molte porte, alcune pericolose. Al centro del dibattito: copyright e produzione di opere artistiche. È importante trovare un equilibrio accettabile per tutti.

Pietro Speroni di Fenizio

Fronte del prompt: i confini aperti dell’intelligenza artificiale generativa

mercoledì 17 gennaio 2024

Tempo di lettura: min

GLI ARTICOLI DEL BLOG AI VISIONS

Molti avranno visto le notizie riguardanti la causa che il New York Times ha intentato a OpenAI e Microsoft per i software GPT. Ho scelto di non parlarne per ora volendo prima fare un riassunto dei molteplici argomenti che non sono chiari tra intelligenza artificiale artistico generativa e la legge.

L’intelligenza artificiale è divisa in vari campi, quelle decisionali (come per esempio AlphaGo) e quelle generative. Quelle generative, a loro volta, si dividono a seconda di cosa stanno generando: testo (per esempio ChatGPT), immagini (Dall-e, Midjourney,…), video, audio. E ci fermiamo qui… per ora.

Tutte queste AI sono state educate attraverso un’enorme quantità di dati. E rispondono a dei comandi in formato testo, a volte con qualche parametro aggiunto. Concentriamoci adesso sulle intelligenze artificiali generative (AGI) delle immagini. Queste hanno spesso una struttura fatta come due imbuti, uniti tramite la parte più piccola. Ciascuno di questi “inbuti” è una rete neurale che raccoglie l’input espresso come una serie di numeri (per esempio i valori di una immagine pixel per pixel), li manipola con delle operazioni matematiche (prodotti di matrici, nulla di troppo complicato). E restituiscono il risultato. Queste operazioni richiedono dei parametri, che sono i pesi della rete neurale. E sono questi che vengono trovati per approssimazioni successive quando si allena la rete neurale.

Si inseriscono le immagini input, spesso con un inizio di descrizione. Vengono trasformate in una descrizione completa (il prompt) dalla rete neurale codificatrice. Se passiamo il prompt alla rete neurale decodificatrice dovremmo riottenere un’immagine simile a quella iniziale. E più è simile, più le due reti neurali hanno fatto bene il loro lavoro. In un certo senso è una forma di compressione dei dati. Un’immagine può essere grande molti megabyte, un prompt misura poche centinaia di byte. Abbiamo di fatto trasformato un’immagine molto grande in una descrizione minuscola. Ovviamente quando torniamo indietro le due immagini non saranno uguali. Se prendete un’immagine della Gioconda all’inizio, ottenete un prompt e poi ri-introducete quel prompt non riotterrete la stessa immagine. Ma qualche cosa di soddisfacentemente simile. E una cosa si definisce “soddisfacentemente” simile se un’altra intelligenza artificiale, che non ha visto le immagini originali, non è in grado di distinguere le immagini generate da quelle originali.

Questo è, in breve, come funziona Dall-e, Stable Diffusion e MidJourney. Se noi passiamo a questo sistema, per educarlo, tutte immagini con un certo stile, tenderà a produrre tutte immagini con quello stile. Se presentiamo solo immagini di un soggetto, riprodurrà solo quel soggetto. Se diamo solo immagini di uomini bianchi come input, otterremo solo immagini di uomini bianchi come output. Non potrà fare una casa, non potrà fare una donna, non potrà fare una cascata, non potrà fare una persona orientale, o neanche una persona vestita diversamente. Ha visto solo quel genere di immagini. È quindi importante definire con attenzione quale insieme di immagini vede quando impara. E il rischio è anche non presentare sufficiente diversità degli elementi a cui non pensiamo. Se in tutte le immagini non piove, o è giorno, potremo solo generare immagini di giorno col sereno. Magari non ce ne rendiamo neanche conto.

Se noi gli facciamo vedere solo immagini di Escher, inevitabilmente ci disegnerà immagini nello stile di Escher. E qui riscontriamo un primo elemento importante: un’intelligenza artificiale non impara tanto un’immagine, ma impara uno stile. Un modo di accostare i colori. Un modo di piegare le forme, di gestire la luce, di rappresentare le facce. Non è corretto però pensare che l’intelligenza artificiale faccia un collage di elementi presi dalle immagini che ha visto. Questo è uno degli errori più comuni che le persone fanno pensando alle intelligenze artificiali generative. Se un’intelligenza artificiale ha visto pochissime immagini, effettivamente non ha potuto astrarre i concetti fondamentali e le immagini saranno copie delle immagini originali. Ma più aumentano le immagini più le intelligenze artificiali sono in grado di astrarre i concetti fondamentali. E le immagini spazieranno integrando i concetti in immagini irriconoscibili.

Un altro aspetto importante: le intelligenze artificiali possono ricevere anche in un secondo momento le ottimizzazioni per imparare dei nuovi concetti. Per esempio, mi piace l’attrice Nastassja Kinski? Posso prendere delle immagini di Nastassja Kinski dalla rete, associarle ad una o più parole chiave, ed educare Stable Diffusion a riconoscere quelle parole chiave. Quando le uso nel prompt, tenderà a richiamare quei pesi e noi vedremo, magicamente apparire, Nastassja Kinski nelle nostre immagini. E questo non si limita agli attori, ma a qualsiasi cosa. Posso estrarre un particolare vestito. Ma anche una particolare posizione del corpo, o un certo tipo di cielo, o di vulcano. O anche un certo modo di dipingere, uno stile.

Ma sarebbe errato pensare che tutto questo sia “facile” e fare un’immagine sia “soltanto un prompt”. Sarebbe come dire che l’unica distanza tra me e il controllo della cassaforte di Binance (che controlla al momento 248 mila bitcoin, circa 10 miliardi di dollari) è un’unica password di 51 caratteri. È vero, ma è comunque irraggiungibile. Trovare quel prompt che produce un’immagine piacevole da vedere tra le tantissime mostruose non è facile. Di fatto produrre immagini con le intelligenze artificiali è una nuova forma di arte.

Il futuro dell’arte secondo i futuristi della rivista “Futuri”

Diciotto saggi per discutere il rapporto fra tecnologia e forme artistiche, corpo e macchina. Da Midjourney agli Nft, passando per il teatro, la danza, il post-cinema, il ruolo dell’abitare e gli spazi sociali.

Chiarito come funziona, vediamo un po’ di conseguenze.

Intanto le intelligenze artificiali si dividono in quelle che generano attraverso dei server esterni (Midjournei, Dall-e, ma anche certe versioni di Stable Diffusion) e quelle che ti permettono di generare sul tuo computer (di fascia medio-alta). Nel primo caso c’è un controllo molto stretto su cosa viene prodotto. La mannaia della censura si abbatte inevitabilmente su qualsiasi cosa possa ricordare un nudo, oppure lo stile di un particolare artista, o una persona vivente, o elementi soggetti a copyright. Ci sono dei modi di aggirare in parte questi divieti (per esempio non puoi fare immagini di Snoopy, ma di un cane simile a Snoopy, sí), ma diventa li gioco del gatto e del topo.

Invece, all’estremo opposto, ci sono i computer che hanno la loro versione di Stable Diffusion installata. E qui veramente non ci sono limiti. Vuoi un personaggio famoso? Pronti. Nudo? Certo. Mentre cavalca una giumenta sulla Luna? Nessun problema. L’unico limite sono le immagini che hanno educato l’AI e la nostra fantasia.

Questa è una riproduzione de La Gioconda, al meglio di quanto Stable Diffusion riesca a fare.

Va notato che ChatGPT di OpenAI si è rifiutato di disegnarla. Prima ha dichiarato che c’erano problemi di copyright. Quando gli ho fatto notare che era un'affermazione assurda essendo La Gioconda stata dipinta 500 anni fa, mi ha spiegato che comunque non poteva farlo perché non poteva ricreare opere esistenti per evitare “usi inappropriati” (testuali parole). Quando ho chiesto di specificare quali fossero questi usi inappropriati ha vagamente parlato di rispetto per l’originalità, la vendita di copie non autorizzate spacciate per l’originale (era serio, io avevo difficoltà pensando a Totò) e una generale paura dell’ambiguità legale che questo avrebbe potuto comportare. In futuro parleremo dei modi in cui OpenAI limita i suoi prodotti e della concorrenza degli altri modelli. Per ora vi presento La Gioconda fatta da Stable Diffusion.

Mentre sulla riproduzione dei classici non dovrebbe esserci ambiguità legale, vediamo quelle che realmente esistono.

Si possono usare immagini protette da copyright per educare le intelligenze artificiali generative? Ma anche se qualcuno possiede il copyright delle immagini di una persona, si possono usare quelle immagini o ci vuole un copyright particolare? E quand’anche io possedessi un’intelligenza artificiale con i pesi per produrre immagini di una persona, che cosa ci posso fare? E fa differenza se io produco un’immagine per mio uso personale, o per distribuirla, o per venderla? E se la stampo, ma tengo il quadro a casa? O in ufficio? La posizione di chi produce immagini con l’intelligenza artificiale è che l’uso delle immagini è fair use. Dopotutto, anche gli artisti hanno a loro volta imparato riproducendo le immagini dei maestri del passato. E non si può mettere il copyright a uno stile. La posizione degli artisti è che non solo non è fair use, ma il fatto che non si possa mettere il copyright a uno stile è solo una dimenticanza dovuta al fatto che non era possibile farlo prima.

Recentemente le aziende cinematografiche hanno iniziato a far fare i provini agli attori, fotografarli e poi non chiamarli per il film. Pagandoli solo per la giornata in cui hanno scattato le foto. Dopotutto, con le tecniche moderne sono in grado di inserire questi attori nei film usando le immagini prodotte. Questo, evidentemente, non è equo.

La questione diventa ancora più esplosiva quando si considera che con queste foto l’intelligenza artificiale può produrre immagini di nudo. Ricordiamoci che molti attori, spesso, presentano nei contratti descrizioni molto dettagliate di cosa possa essere mostrato o no nelle scene di nudo che li ritraggono. D’altra parte, mentre c’è un evidente rischio di danneggiare la dignità dei soggetti rappresentati, c’è anche un rischio opposto di un eccessivo puritanesimo. Siamo cresciuti tutti con le immagini di Forattini che rappresentava l’onorevole Spadolini nudo nelle vignette di satira politica. E nessuno è rimasto sconvolto o ha protestato, men che meno lui. E non credo Forattini gli abbia chiesto il permesso. Per non parlare dei nudi artistici, parte imprescindibile della nostra cultura. Creare una società in cui nessuno può creare immagini di nudo neanche per proprio uso personale porterebbe a una nuova società vittoriana. Siamo sicuri che vogliamo questo?

Aloud: la nuova piattaforma di doppiaggio automatico che rivoluzionerà YouTube

Traduzione istantanea, imitazione della voce, modifica del labiale: queste sono alcune delle innovazioni di Aloud. Lo strumento porterà a una diffusione dei contenuti su scala globale, ma anche a una maggiore competizione tra youtuber. A rischio il settore dei doppiatori.

Poi c’è il problema del copyright delle immagini generate dall’intelligenza artificiale. A chi appartiene. La Corte americana del Distretto di Columbia ha deciso che le immagini prodotte dalle AI non sono coperte da copyright. Lo sforzo creativo dell’umano che ha generato le immagini non è stato considerato sufficiente. Evidentemente, i giudici non sapevano quanto fosse difficile. Al contrario, la Corte per Internet di Pechino ha deciso (qui un articolo sull’argomento in italiano) che queste immagini sono protette da copyright. Tra poco, quindi, potremmo vedere il governo cinese protestare per le copie americane delle immagini prodotte in Cina. Il mondo è favoloso.

Finora abbiamo parlato di generatori di immagini. Se associamo molte immagini di seguito, otteniamo un video. Le immagini devono essere simili, con una coerenza tra quella precedente e quella successiva. Se un personaggio, in un’immagine, ha i capelli biondi, lisci e lunghi, in quella successiva non può averli corti, neri e ricci. E lo stesso vale per i vestiti e il background. E così via. La coerenza nei video è uno degli elementi più difficili da ottenere dalle intelligenze artificiali generative, ma stiamo iniziando ad avere qualche successo. È plausibile pensare che entro poco tempo sarà possibile generare prima cortometraggi, poi film partendo da descrizioni testuali e qualche file di pesi.

Questo potrebbe portare alla generazione di film a sorgente aperta, generati da parte di una comunità. Film modificabili dagli utenti, e sviluppabili attraverso uno sforzo collettivo. Per esempio un utente potrebbe preferire una versione di un film con un attore invece di un altro. Oppure aggiungere certe scene. Non è implausibile che in futuro un gruppo di aficionados decidano di ricreare le ultime stagioni del Trono di Spade, riscattando la serie. O almeno, io lo spero.

Stiamo assistendo alla nascita di una nuova forma d’arte. Bisogna conoscerla. Ma ci vorrà del tempo per prendere le misure, decidere cosa è accettabile e cosa no. Come ripagare i soggetti e i detentori del copyright, ma anche come permettere la crescita di questa nuovo settore.

E non è scontato che sopravviva. All’inizio del 2000 abbiamo visto la nascita di un movimento di persone che, comprando materiale di seconda mano dismesso da laboratori genetici, lavoravano modificando nel loro garage il genoma di piante e animali. Prendevano il nome do-it-yourself-bio (DIYBio). Una serie di leggi molto restrittive, volute dai movimenti ecologisti, ha richiesto che ogni modifica nel codice genetico dovesse passare per dei controlli rigorosissimi. Le leggi erano pensate contro le grandi aziende (in particolar modo Monsanto). Il risultato è stato l’opposto di quello sperato. Solo le grandi aziende si potevano permettere i costi di questi controlli. E il movimento è piano piano scomparso. Non credo accadrà la stessa cosa, ma se i detentori del copyright, e gli artisti della vecchia guardia, riuscissero a imporre le leggi che vogliono, questa esplosione di creatività verrà strangolata in culla. E sarebbe un peccato.

Immagine di copertina generata attraverso Stable Diffusion.

Indietro