ChatGPT e oltre: il dilemma della censura nella corsa verso l'AGI

OpenAI cerca di migliorare i suoi strumenti, ma anche di mettersi al riparo da cause civili milionarie e pubblicità negativa. Qual è il limite dei “filtri” imposti all’intelligenza artificiale?

Pietro Speroni di Fenizio

ChatGPT e oltre: il dilemma della censura nella corsa verso l'AGI

lunedì 29 gennaio 2024

Tempo di lettura: min

GLI ARTICOLI DEL BLOG AI VISIONS

Chi di voi ha usato ChatGPT in maniera continua nell’ultimo anno ha sicuramente notato delle nette differenze nelle capacità dell’intelligenza artificiale nel tempo. Non solo miglioramenti (come il passaggio da ChatGPT 3 a ChatGPT 4 che poteva ricevere immagini come input), ma anche e spesso dei veri e propri peggioramenti. ChatGPT un giorno è in grado di rispondere a una domanda, una settimana dopo no. Nel frattempo ci sono centinaia di alternative che cercano di sostituirsi ad esso. Alcune sono prodotte da aziende affermate, altre da università; alcune sono a sorgente aperta, altre no. È un intero universo. Adesso facciamo un passo indietro e guardiamo la situazione generale.

La prima cosa da notare è che ChatGPT non è un’intelligenza artificiale, ma un’intera famiglia di AI. Per accorgersi di questo, basta guardare nella pagina dei modelli di OpenAI. Quando usiamo ChatGPT il modello di riferimento non è sempre lo stesso. E anche quando li interroghiamo attraverso le API (le Application Processing Interface, usate dai programmatori per far interagire a pagamento il loro programma con i GPT), il modello che ci risponde non è sempre lo stesso. Quindi la risposta non sarà sempre la stessa.

Fronte del prompt: i confini aperti dell’intelligenza artificiale generativa

L’AGI apre molte porte, alcune pericolose. Al centro del dibattito: copyright e produzione di opere artistiche. È importante trovare un equilibrio accettabile per tutti.

Le istruzioni elencano decine di modelli (di cui solo gli ultimi attivi: gpt-3.5-turbo-1106, gpt-3.5-turbo-0613, gpt-3.5-turbo-16k-0613, …), ma poi quando si richiama il modello generale “gpt-3.5-turbo”, ci dice che al momento punta (cioè usa) il modello gpt-3.5-turbo-0613. E domani… chissà. Ma anche lo stesso modello non è un elemento statico. È sempre in continuo divenire. Ovviamente da una parte OpenAI cerca di migliorare i suoi strumenti, ma anche di mettersi al sicuro da potenziali cause civili milionarie, nonché di evitare pubblicità negativa. Questo perché qualsiasi risposta imbarazzante o pericolosa gli si ritorcerebbe contro. Questo ha portato OpenAI a implementare un filtro su quello che viene prodotto dai GPT. Questo filtro si chiama reinforcement learning from human feedback, cioè apprendimento per rinforzo da feedback umano, e viene spiegato da OpenAI in questo articolo, e poi chiarito per i non esperti in questa pagina. In breve OpenAI prepara una descrizione di come il modello dovrebbe funzionare in un documento. Degli esseri umani lo leggono, e interrogano l’intelligenza artificiale ottenendo diverse risposte alternative. E ogni volta scelgono la migliore, quella che più si avvicina ai desiderata di OpenAI. Ma questo lavoro sarebbe tedioso e troppo lungo fatto solo con gli esseri umani. E per questo OpenAI addestra (osservando queste interazioni) un altro modello di intelligenza artificiale che si specializza a fare solo questo lavoro. Una specie di censore artificiale. Ed è questo programma che educa ChatGPT su cosa può dire e cosa no. In realtà il censore da solo non basta, in quanto da solo nelle sue grinfie ChatGPT tende a dimenticare come scrivere frasi di senso compiuto. Quindi viene affiancato da un modello base di ChatGPT che controlla che quello che viene scritto non sia solo in linea che le direttive di OpenAI, ma anche comprensibile.

Il risultato è un modello di ChatGPT molto più mansueto. Politicamente corretto (perché così è voluto da OpenAI), che evita di dare consigli dannosi, illegali, immorali o che fanno ingrassare. D’altra parte le intelligenze artificiali sono pericolose. Pensate a questo, una chiacchierata può fare la differenza tra la vita e la morte. Un incauto che dice la cosa sbagliata a una persona depressa con istinti suicidi può indirettamente causarne la morte. E viceversa qualcuno che dice la cosa giusta, o sta anche solo lì ad ascoltare in un momento chiave può salvare qualcuno. Per questo abbiamo i servizi di telefono amico per le persone in crisi. Recentemente un uomo si è suicidato e il ChatBot Eliza, commercializzato da Chai-Research (da non confondere con l’applicazione ELIZA degli anni ‘60) è stato accusato dalla moglie di averne causato indirettamente la morte. Ed effettivamente a giudicare dalle immagini che hanno cominciato a girare, il sospetto pare legittimo.

Evidentemente, questo non è accettabile. È anche plausibile che in futuro, come esistono intelligenze artificiali specializzate nella diagnostica medica, ci saranno intelligenze artificiali specializzate a parlare con persone in crisi. E alcune saranno migliori degli esseri umani stessi. Ma per ora non siamo a quel punto, e sicuramente i sistemi generici non lo sono. Come per le malattie mentali abbiamo bisogno di professionisti, così anche le intelligenze artificiali si stanno specializzando. E il filtro RLHF è parte di questa specializzazione, poiché si assicura che le intelligenze artificiali rispondano solo nell’ambito delle conoscenze per cui sono state istruite.

Però, a volte, si esagera con la prevenzione. Quando ChatGPT produce una risposta, il censore può dare l’ok, o porre il veto. A volte dà l’ok, giustamente. A volta pone il veto, anche giustamente. Ma a volte sbaglia. Questi errori si chiamano falsi positivi (se dà l’ok, e avrebbe dovuto bloccare la risposta) e falsi negativi (se blocca una risposta che avrebbe dovuto far passare). I falsi negativi limitano inutilmente l’Ai. La rendono un po’ meno intelligente, un po’ più noiosa. Ma i falsi positivi sono potenzialmente pericolosi. Sono messaggi con informazioni che non avrebbero dovuto essere rilasciate, che vengono invece rilasciate. E potenzialmente ciascuno di questi messaggi è una bomba che può danneggiare OpenAI. Non è possibile elaborare un filtro che catturi esattamente quello che si vuole senza errori. Falsi positivi e falsi negativi esistono ed esisteranno sempre. Ma si può decidere se si preferisce avere un filtro potenzialmente troppo restrittivo o potenzialmente troppo liberale. In questo contesto è plausibile che OpenAI tenda a errare nell’essere più restrittiva del necessario che il contrario. Purtroppo nel passare da un sistema artificiale incontrollato a uno più raffinato si perdono molte risposte brillanti. Se all’inizio una persona aveva un problema di salute, e chiedeva una risposta all’intelligenza artificiale, poteva ricevere una diagnosi. Spesso corretta, ma non sempre (e quando non lo era, erano dolori se l’essere umano non chiedeva un secondo parere). Poi ha cominciato ad aggiungere di consultare un medico, affermazione corretta. Adesso spesso ti dice solo di consultare un medico. E, se fai domande legali, risponde di consultare un avvocato. Magari un avvocato uno lo avrebbe consultato lo stesso, dopo. Ma intanto sarebbe stato interessante sapere cosa poteva dirci ChatGPT. Questo è sempre meno possibile. E ChatGPT è sempre meno interessante.

Oltre il camice bianco: l'intelligenza artificiale supera i dottori nella diagnostica medica

L’intelligenza artificiale ha dimostrato di elaborare diagnosi più efficaci dei dottori. Adesso il personale medico deve accettarlo. Ma sono solo i primi.

Il problema di far sì che i valori di un’intelligenza artificiale siano in linea con quelli umani è noto come problema dell’allineamento. E non è semplificato dal fatto che esseri umani (comunità, società, nazioni) differenti… abbiano valori differenti. Quello che per una persona va bene, per un’altra è inaccettabile o scandaloso o pericoloso. Inaccettabilmente restrittivo, scandalosamente esplicito, pericoloso. Vediamo quindi il problema fuori dal giardino protetto di OpenAI.

Ci sono molte altre intelligenze artificiali, e lo sforzo nel ricreare ChatGPT è globale. La prima differenza che si nota è tra i modelli a sorgente aperta e quelli chiusi. I modelli chiusi sono il prodotto di uno sforzo singolo di un particolare team. Quelli aperti sono parte di un lavoro globale. Questi modelli aperti a loro volta si dividono ulteriormente a seconda di cosa viene rilasciato pubblicamente.

Vediamo i passaggi con cui si genera un modello, cosa necessita e cosa produce. Evidentemente, ci saranno modelli più o meno aperti a seconda di cosa viene rilasciato e cosa no. In genere i passi percorsi sono questi:

La lista dei testi usati per educare l’intelligenza artificiale;
Il codice di apprendimento, che sulla base di questi testi genera il file dei parametri;
Una serie di computer molto potenti che solo le grandi aziende si possono permettere;
Il file dei parametri (o pesi) per far funzionare l’intelligenza artificiale;
Il codice di inferenza, che unito al file dei parametri, permette la creazione della versione non censurata dall’intelligenza artificiale;
Le linee guida per il raffinamento;
Il codice per il raffinamento;
La manodopera umana per assicurarsi che il codice segua le istruzioni;
I computer per il raffinamento;
Il modello finale;
A volte questo modello finale può girare sui server dell’azienda (come nel caso di ChatGPT) o localmente, se il computer è sufficientemente potente o il modello sufficientemente piccolo.

Ci sono, come spiegato, fondamentalmente due gruppi di passaggi, un primo gruppo che sulla base dei testi genera un’intelligenza artificiale non censurata.

Un secondo gruppo di passaggi che, partendo dal risultato ottenuto (le risposte dell’IA non censurata), con delle linee guida e della manodopera che interpreta queste linee guida, genera un’intelligenza artificiale censurata (o raffinata).

Il processo è abbastanza complicato è questa è comunque una schematizzazione. Ho usato i colori per mettere in evidenza i passaggi. Si parte con i testi necessari per educare l’intelligenza artificiale (che possono essere open source o no) e il codice di apprendimento (che anche può essere open source o no). Il codice applicato ai testi genera, attraverso un processo estremamente lungo, usando dei computer molto potenti, il file dei parametri. Si parla di un costo di milioni di euro per generare un file. Pochi attori si possono permettere questo passaggio. Google, Amazon, Meta, Microsoft. Il file prodotto dei pesi (ovvero i parametri della rete neurale), insieme al codice di inferenza, permette di avere una prima versione, quella non censurata dell’intelligenza artificiale. ChatGPT-4, che ha riletto questo articolo, insiste che io la chiami “non-raffinata”, ma in inglese il termine è “uncensored”, valutate chi secondo voi ha ragione. Si potrebbe usare già così, ma è potenzialmente pericoloso come si vede dall’esempio di Eliza prima. Per questo motivo questi pesi sono raramente rilasciati al pubblico. Se trovate dei pesi per un’intelligenza artificiale e si specifica che sono “uncensored” si stanno riferendo a questa fase qui. Poi questi pesi, insieme alle linee guida per il raffinamento, e insieme alla manodopera, vengono usati per generare la versione definitiva e censurata (raffinata [NDGPT]) del codice. Quella con i pesi finali pronta all’uso. Questi, e il modello di inferenza, costituiscono lo strumento necessario per far funzionare l’intelligenza artificiale. Alcune volte l’intelligenza artificiale finale è abbastanza piccola da poter lavorare su un computer normale, o addirittura un cellulare, altre volte assolutamente no. E ci sono molte vie di mezzo.

Così Alphabet, cioè Google, ha presentato (ma non ancora rilasciato) tre versioni di Gemini, nano (per i cellulari), pro (per i laptop e i desktop) e ultra (da usare solo in cloud). Meta, cioè Facebook, ha rilasciato Llama 1 e poi 2. Anche in tre grandezze differenti. Ma ha anche rilasciato il codice sorgente ottenendo il lavoro gratis di centinaia di utenti interessati a migliorare il progetto. Anthropic ha rilasciato Claude. E tanti altri. Nonostante tutto questo nessuno dei software alternativi ha raggiunto i livelli di GPT-4. Ed è per questo che OpenAI si può permettere di eccedere nella censura.

È una corsa, una corsa in cui OpenAI guida e rallenta per cercare di non far scattare le reazioni difensive della società, mentre i modelli alternativi corrono cercando di raggiungere quei livelli con un atteggiamento più snello e meno controllato. Come abbiamo visto nell’articolo precedente tra Stable Diffusion e DALL-e. Presto parleremo in dettaglio dei vari modelli disponibili. Intanto per chi volesse portarsi avanti, e ha a disposizione un computer sufficientemente moderno e potente, può installare jan.ai che permette di far girare in locale diversi modelli artificiali.

Indietro