Costruire l'AGI: innovazioni e implicazioni dei modelli di linguaggio
Un viaggio alla scoperta delle nuove forme di intelligenza artificiale attualmente disponibili sul mercato, e del loro modo di ragionare.
Se prendete un’automobile o un trattore, in entrambi i casi all’interno troverete il motore a combustione. Ci sono tanti tipi di motore ma il concetto centrale è comunque quello, in uno spazio piccolo viene spinto un liquido infiammabile. E viene acceso a pressioni elevate. Questo, accendendosi, causa un aumento enorme della pressione che spinge un pistone e fa girare l’albero motore. Che è poi collegato alle ruote. Il concetto di base è lo stesso per macchine di grossa o piccola cilindrata. Il passaggio dalla costruzione dei primi motori a scoppio all’esplosione di macchine differenti corrisponde a ciò che stiamo vivendo adesso nel campo dell’intelligenza artificiale. Il concetto di base è lo stesso, i Large language models. Ma adesso vengono integrati in strutture maggiori.
Se tu scrivi a un LLM un testo, lo completerà in maniera coerente. Funziona un po’ come il vostro cervello. Se iniziate a parlare, potete continuare senza prestare veramente attenzione a quello che dite. In automatico. È come se una parte del cervello fosse in grado di parlare, senza rendersi conto di quello che dice.
Ai bambini si insegna a “pensare prima di parlare”. E questo è quello che stiamo insegnando anche alle intelligenze artificiali. Prendiamo per esempio quattro LLM. E poniamo una domanda alla prima, LLM_1. Allora LLM_1 porrà la stessa domanda a LLM_2, LLM_3 e LLM_4. Ricevendo quindi tre risposte. Poi LLM_1 leggerà le tre risposte e sceglierà la migliore. Già un sistema di questo genere presenta, alla prova dei fatti delle risposte molto migliori. È come una persona che pensa tre volte prima di parlare. Oppure LLM_1 potrebbe porre la domanda a LLM_2, leggere la risposta e decidere se il testo ottenuto risponde alla domanda. E se non lo fa, rimanda la stessa domanda per ottenere un’altra risposta potenziale.
Ma perché LLM_1 dovrebbe essere in grado di giudicare una risposta ma non scriverla? Perché giudicare è più facile di generare. Quando giudichi controlli solo che certi parametri corrispondano. È un principio generale. In alcuni problemi semplici scrivere la risposta e controllarla riguarda problemi di uguale difficoltà. Ma in altri casi ci sono molti elementi che vanno controllati. Dobbiamo pianificare un grattacielo, viene fuori un silos che scende di nove piani sotto terra. C’è qualcosa che non va. Come disse Pericle nel discorso agli ateniesi: “Benché in pochi siano in grado di dar vita a una politica, tutti siamo in grado di giudicarla”. Stesso principio. Quando un minatore risolve un blocco sulla blockchain dei bitcoin, tutti gli altri lo controllano. Risolverlo è difficile, controllarlo è facile. Ed è per questo che ha senso disarticolare la creazione di una risposta dalla sua generazione. Sia nei bitcoin, che quando pensiamo, che quando controlliamo i calcoli che quando costruiamo delle macchine pensanti.

Usiamo NotebookLM per affrontare velocemente argomenti nuovi
L’ultimo strumento di Google è estremamente versatile e rischia di sconvolgere il mercato nella sua semplicità.
Un altro passaggio consiste nel dividere un ragionamento in vari step successivi e affrontare il problema “passo dopo passo”. Anche in questo caso i LLM rimangono gli elementi chiave, ma vengono impiegati in modo più strutturato: un primo LLM decide l’ordine dei passaggi, altri LLM risolvono ciascun passaggio a turno e, infine, un ultimo LLM controlla l’esito complessivo, eventualmente rimandando il lavoro indietro in caso di errore. Questo approccio è noto come “chain of thought” (“catena di pensieri”) ed è stato presentato per la prima volta dal ricercatore Jason Wei e colleghi nel 2022, nello studio “Chain of thought prompting elicits reasoning in Large language models”.
Per capire meglio, immaginiamo di voler uscire da un labirinto in cui l’ordine delle mosse è cruciale. Un singolo errore può condurre a un vicolo cieco, obbligandoci a ripercorrere i passi precedenti. Allo stesso modo, la “catena di pensieri” tiene traccia delle scelte compiute, e se la sequenza intrapresa non porta alla soluzione, rivede le decisioni fondamentali e prova strategie alternative. È un sistema analogo a come i software scacchistici valutano varie possibili mosse, ma qui l’intero processo è integrato con modelli di linguaggio di grandi dimensioni.
All’inizio, questa strategia era implementata come procedura esterna a ChatGPT. In seguito, OpenAI l’ha inclusa nel proprio prodotto, dando vita al sistema di ragionamento denominato O1. I dettagli rimangono riservati: per quanto si possano intravedere i passaggi intermedi, non è possibile consultarli direttamente. OpenAI, invece, ne ha accesso e può monitorarli per “assicurarsi che tutto funzioni correttamente” (secondo la visione ottimistica) o per “tenere d’occhio” l’utilizzo da parte dei clienti (secondo la visione più scettica).
Il risultato è buono, ma non ottimo. Spesso utilizzare soltanto un normale LLM (come ChatGPT-4o) risulta più veloce e altrettanto efficiente.
Comunque la strada è stata tracciata, e in seguito anche le altre aziende hanno presentato prodotti “più intelligenti”. Non hanno specificato come questi nuovi LLM siano costruiti, ma il modo di ragionare, i tempi, il fatto che non inizi a rispondere subito, ma ci pensi su, ci fa intuire che anche loro abbiano incluso un procedimento simile. Tra questi abbiamo Claude 3.5 Sonnet, e Gemini 2.0 Experimental Advanced.
Ho recentemente provato a discutere concetti abbastanza complessi con tutte e tre queste intelligenze artificiali e almeno una mi ha sempre corretto gli errori dei miei ragionamenti (d’altra parte quando nessuna mi ha corretto, forse non ho fatto errori, o forse ci siamo sbagliati tutti e quattro). Questo parlando della fisica interna dei buchi neri, ma anche di sistemi di arbitraggio finanziario sulle opzioni. Quando presento gli stessi problemi a intelligenze artificiali più semplici, la differenza è netta.
Recentemente OpenAI ha anche presentato un modello più sviluppato: O1-pro. Ma questo modello ha un costo molto maggiore, dai 20 dollari al mese ai 200 dollari al mese. E ha dei costi per OpenAI talmente alti che neanche i 200 dollari al mese sono sufficienti per coprirli.
E uno ancora maggiore, O3. Non abbiamo modo di controllare come ragiona, ma solo di ascoltare le misurazioni che ne fuoriescono. Spesso con le intelligenze artificiali si tende a presentare una serie di problemi più volte e poi si presenta il problema “test”. Questo funziona per “intelligenze” normali. Ma ci si può confondere tra un’intelligenza che ha veramente capito il problema. E un’intelligenza che sta solo ricopiando un pattern, un modus operandi, un modo di fare. Ed è per questo che si elaborano degli esami per le AI per controllare quanto queste siano intelligenti, presentando problemi che non hanno visto durante il periodo di training. Non solo non hanno visto quello specifico problema, ma anche quella classe di problemi. Eppure sono problemi che qualsiasi essere umano è in grado di risolvere di primo acchito (potete provarli qui). Ebbene mentre ChatGPT 4 risolveva il 2% di questi problemi, e O1 il 25%, O3 ne risolve addirittura il 75%. Difficile non essere impressionati. Qui l’annuncio.
Ma questi esami sono abbastanza irrilevanti se non vediamo il sistema funzionare. E qui vorrei condividere l’inizio di un articolo scritto da un immunologo, che ha chiesto a O1-pro di valutare un paper scritto da un suo studente. Lui aveva già fatto una valutazione, e sull’argomento è uno dei pochi esperti mondiali. Questo è quello che scrive su X del lavoro di O1-Pro.
“Ho chiesto a o1-Pro di valutare in modo critico una recensione che i miei studenti e io avevamo scritto su un particolare sottogruppo di cellule immunitarie chiamate cellule Mait e sul loro ruolo nel cancro. Il risultato? Sono semplicemente sbalordito oltre ogni immaginazione dalle critiche di o1-Pro! Erano più perspicaci delle mie – andando a toccare un tema di cui io stesso sono uno dei pochissimi massimi esperti al mondo, avendo dato alcuni dei contributi fondamentali.
Mentre leggevo il suo feedback, mi sono ritrovato a fissare lo schermo del mio computer, completamente rapito, sopraffatto da un misto di emozioni: incredulità, meraviglia, gioia e un profondo senso di umiltà. Ogni singolo punto che ha sollevato, ogni domanda che ha posto – tutto era incredibilmente perspicace!
La profondità della sua analisi è davvero difficile da comprendere. Anche se eravamo convinti di aver scritto un’ottima recensione sull’argomento, accettata con solo lievi critiche, mi sono sentito profondamente umiliato pensando: “Avrei dovuto affrontare e includere tutti questi spunti nella recensione.” Ahi! L’unico sollievo è che non ha rilevato alcun errore.
Sul serio, come può essere possibile… La biologia subirà un’accelerazione persino maggiore di quanto immaginassi. Ho anche messo alla prova o1 e Gemini advanced in confronto: sono senz’altro modelli eccellenti, ma non si avvicinano minimamente a questo livello di profondità. o1-pro è davvero speciale!
Condividerò di seguito l’intero feedback. Sebbene solo pochi, dotati di una profonda competenza in immunologia, possano cogliere appieno la brillantezza delle critiche di o1-Pro, credo che ciò rappresenti sia una testimonianza storica dell’eccezionale progresso dell’AI, sia un potente esempio per altri scienziati di come sfruttare questo tipo di analisi critica. Cercherò di spiegare questi punti, anche se per ora potreste voler ricorrere a Grok o ChatGPT per comprenderne il significato”.
[tradotto dall’inglese con o1]
L’articolo prosegue con le lodi e condividendo il testo prodotto da o1-pro. Forse 200 euro al mese per un prodotto del genere non sono troppi. Ci sto ancora pensando. Quello che è certo è che ci sono molte forme di intelligenza. Anche tra gli esseri umani distinguiamo tra intelligenza logica, creativa, spaziale, sociale, emotiva. Certo le nuove intelligenze artificiali non sono esattamente come quella umana, ma non saranno neanche inferiori. Se qualcuno pensava fossero solo dei complessi sistemi che riproducevano i modelli incontrati, adesso non è più vero.
Copertina: Pietro Speroni di Fenizio