Intelligenza modulare, dalla specializzazione all'integrazione
Di fronte alle limitazioni dell'AI è tempo di andare oltre la mera specializzazione in moduli differenti, verso una loro integrazione. Vediamo alcuni esempi.
I sistemi di intelligenza artificiale sono ancora molto limitati. Ci sono sistemi in grado di sviluppare immagini, altri in grado di conversare, altri in grado di scrivere codice. E poi sistemi specializzati nelle diagnosi, nell’analisi del mercato, eccetera.
Questa specializzazione è al contempo la forza e la debolezza dei sistemi artificiali moderni.
Ne è la forza perché permette di sviluppare in uno spazio più contenuto expertise differenti. Come avere un team con esperti diversi. E proprio con questa immagine è stato prodotto Mixtral 8x7B. Dove Mixtral è il diminutivo di “mixture of experts”. Perché Mixtral è un’intelligenza artificiale con 46,7 miliardi di parametri che risulta essere l’unione di otto intelligenze artificiali specializzate. A seconda del prompt, il sistema attiva una o l’altra intelligenza artificiale. Quali siano questi otto sistemi e quali siano le loro expertise non è al momento stato pubblicato. Si sa però che usando solo un ottavo del proprio cervello, il sistema utilizza ogni volta solo 12 miliardi di parametri per ogni richiesta. Un aspetto che porta a un risparmio netto in termini di costi.
Abbiamo un sistema del genere anche in ChatGPT. Per un periodo si poteva scegliere se usare la versione di ChatGPT che era in grado di scrivere codici, oppure quella che disegnava, oppure quella che poteva andare online. Adesso, quando si fa una richiesta, il sistema decide in autonomia quale sotto-rete usare.
In questo sono sistemi modulari. Ma sono anche molto limitati, per ora. Immaginate di essere un professore di disegno tecnico a un liceo. Chiedete agli studenti di disegnare un vaso nelle sue varie proiezioni. Uno studente lo fa, ma il risultato è sbagliato. Gli chiedete di rifarlo, e ancora lo fa male. E così via. A un certo punto sbottereste: “Non ci stai mettendo attenzione, non guardi neanche il disegno che stai facendo”. Ecco, questa è la situazione in cui siamo adesso. Ci sono i vari moduli, e un modulo può attivare un altro. Ma il sistema raramente controlla quello che è stato fatto. Un esempio recente è accaduto quando ho preparato l’articolo sulla medicina. Alla fine avevo aggiunto un disegno in cui Snoopy, davanti a una macchina da scrivere, tirava fuori la lingua e diceva “Cicca Cicca” a un robot (immagine poi censurata dalla redazione che mantiene uno standard molto alto). Ho dovuto chiedere almeno 20 volte a ChatGPT di rifare il disegno. Una volta era il robot a parlare, oppure entrambi, oppure il robot guardava da un’altra parte, o la macchina da scrivere era nel posto sbagliato, o la vignetta diceva qualcosa di diverso. Insomma il modulo che disegna di ChatGPT è un po’ troppo creativo, e soprattutto, gli altri moduli non controllano se il lavoro fatto corrisponde a quello richiesto. E se questi sono i problemi con una vignetta, immaginatevi i problemi se chiedessi a ChatGPT di pianificare una casa. La descrive a parole, ma poi l’immagine risulta completamente diversa.
E questo è il passaggio successivo, un buon team non è solo composto dalle persone giuste, ma questi esperti devono anche saper lavorare insieme, darsi feedback a vicenda.
Oltre il camice bianco: l'intelligenza artificiale supera i dottori nella diagnostica medica
L’intelligenza artificiale ha dimostrato di elaborare diagnosi più efficaci dei dottori. Adesso il personale medico deve accettarlo. Ma sono solo i primi.
Il cervello umano funziona così. Ci sono parti specializzate nella visione, altre nel movimento e così via. Ma poi queste parti devono integrarsi. L’integrazione mano-occhio è fondamentale. Quando i bambini sono molto piccoli, e provano a mangiare, si rovesciano tutto addosso. È normale. Poi si impara. E la coordinazione procede. Si impara a tirare una palla, a camminare, a correre. Anche a scrivere al computer. Si integrano i vari moduli.
Questo è il punto dove siamo adesso. Ed è per questo che il nuovo modello di Google, Gemini, ha fatto tanto rumore. Era un sistema “native multimodal” cioè nato come sistema “multimodale”. Un sistema è multimodale se comunica tramite modalità diverse (audio, video, …). Si tratta di un concetto differente, ma collegato ai moduli precedenti. ChatGPT è multimodale attraverso i suoi moduli, ma non sono integrati tra loro. Anche perché sono stati sviluppati separatamente. Gemini sembrava aver integrato questi moduli, dal momento che è stato educato in maniera multimodale fin dall’inizio. Poi il sistema si è rivelato molto lento: il video di presentazione di Google era infatti modificato per nascondere le lunghe attese. E questo ha smorzato molto le aspettative.
Un altro ricercatore che ha correttamente notato la necessità di rendere le AI modulari è il professore emerito Tom Dietterich, che in una presentazione per la Valencia Graduate School ha spiegato come i large language model moderni non distinguono tra le cognizioni del mondo e le cognizioni di grammatica. Cosa che rende particolarmente difficile aggiornarli. Mentre è fondamentale che siano aggiornati quotidianamente.
Questa divisione e integrazione tra le varie intelligenze artificiali specializzate rappresenta uno dei fronti aperti da seguire. Ci sono sistemi specializzati, sistemi modulari, sistemi multimodali. E quello che ancora ci manca sono i sistemi modulari integrati. Sistemi che hanno i loro moduli, ma capaci di dialogare in continuazione tra loro. Se posso azzardare una previsione entro la fine del 2024 dovrebbero cominciare ad apparire.