DALL’INFORMAZIONE ALLA CONOSCENZA: LA FRONTIERA DELL’IA
Il 2023 è stato l’anno che ha visto diffondersi i modelli linguistici di grandi dimensioni (LLM) di cui ChatGPT e BARD sono le versioni commerciali più famose, anche se ne esistono altre versioni come Ernie Bot di Baidu, il modello cinese. Gli LLM hanno infranto una barriera che si reputava insuperabile: la competenza linguistica e la capacità di utilizzare il linguaggio naturale degli esseri umani per manipolare e organizzare la conoscenza. L’anno appena trascorso ha segnato il momento nel quale gli algoritmi sono stati in grado di gestire la conoscenza e non soltanto l’informazione.
Fino al 2022, la gran parte degli algoritmi erano sostanzialmente basati sul teorema di Shannon, nel senso che gestivano, nel modo più efficiente possibile, l’accesso a enormi quantità di informazione (fossero le foto delle vacanze sui social o i bigdata di Amazon, poco cambiava). Non per caso, il testo fondativo di Shannon si intitolava Una teoria matematica della comunicazione. La prima generazione di assistenti digitali (da Siri a GoogleAssistant o Alexa) tradivano questa origine, manifestando ridotte capacità di manipolazione del linguaggio naturale. Con gli LLM tutto è cambiato. La loro struttura è basata sulla statistica bayesiana e la loro incredibile capacità di padroneggiare sintassi e semantica nasce dal fatto di catturare le probabilità condizionate contenute in una grande mole di dati e nel riprodurre alla rovescio queste relazioni. Questo è il punto chiave. Prima degli LLM, i computer gestivano informazioni separate le une dalle altre: ogni parola, ogni pixel, ogni nota musicale non era legata alle altre. Grazie agli LLM, l’intelligenza artificiale gestisce la relazione tra informazioni: come si lega questa nota alle altre? come si lega questa parola alla frase e a tutte le altre frasi? come si lega questo colore a questa forma? E così via. Si è passati da una gestione atomica dell’informazione, a una gestione relazionale della conoscenza.
Ma che cosa è la conoscenza? È la struttura che lega i dati ovvero la rete di relazioni che tiene insieme parole, concetti, frasi. Queste relazioni, contenute implicitamente ed esplicitamente nei testi che vengono utilizzati per addestrare l’ìntelligenza artificiale, sono rappresentate matematicamente da milioni, anzi miliardi e più, di probabilità condizionate. Approssimativamete possiamo dire che ognuna di queste probabilità corrisponde a quel termine che si utilizza per quantificare le LLM: i famosi parametri (per esempio, GPT4 si stima abbia 115 mila miliardi di parametri).
A questo punto – per noi filosofi ma non solo – nasce una domanda urgente: in che consiste la relazione tra informazione e conoscenza, tra relazioni e probabilità? La risposta è tutto sommato piuttosto semplice.
L’algoritmo bayesiano al cuore delle LLM scompone i dati in ingresso (per ora grandi quantità di testo) in una nuvola di probabilità condizionali (all’incirca corrispondenti ai parametri). In questo modo la realtà non è più rappresentata da una miriade di informazioni, ciascuna atomicamente corrispondente a un punto, un singolo fatto, un evento; ma è decomposta da un insieme di probabilità condizionali che, per loro natura, sono relazionali.
Riassumendo, la realtà è fatta di eventi, che accadono in relazione gli uni con gli altri. Queste relazioni possono essere espresse da probabilità condizionate che ci dicono quanto un evento è probabile relativamente ad altri eventi. Se abbiamo abbastanza relazioni abbiamo catturato la struttura della realtà. Questa struttura relazionale-probabilistica è la conoscenza. In questo modo si superano i limiti della teoria dell’informazione e si cattura la conoscenza.
Oggi gli LLM non accedono direttamente alla realtà. Non hanno ancora occhi, orecchie, braccia e gambe. Ma sono in grado di accedere a grandi quantità di testo generate dagli esseri umani; testi che sono l’espressione del linguaggio naturale che è stato una rete all’interno del quale, nel corso di generazioni e generazioni, gli esseri umani si sono confrontati con il mondo, trasferendo dal mondo fatto di cose ed eventi al linguaggio fatto di parole e regole quella struttura che gli LLM sono in grado di estrapolare e riprodurre. Il linguaggio umano ha impiegato migliaia di anni a incorporare il mondo, gli LLM lo hanno fatto in pochi mesi.
Gli LLM sono uno specchio di alcuni processi che caratterizzano gli esseri umano e, anche se incompleti, ci costringono a riflettere (in quanto specchi …) sulla nostra natura. Fino a ieri, chiunque avesse mostrato la competenza linguistica di uno di questi modelli sarebbe stato considerato dotato di mente, pensiero e comprensione del testo. Oggi questa conclusione non è più ovvia e, mutatis mutandis, ci costringe a mettere in dubbio la sua validità anche nel caso degli esseri umani. Perché ci consideriamo dotati di pensiero e comprensione? Forse perché siamo in grado di usare in modo competente il linguaggio? Ma anche gli LLM sono in grado di farlo e non per questo gli ingegneri cercano, tra una probabilità condizionale e l’altro, alcunché di simile al pensiero. Nessuno cerca, all’interno dei milioni di parametri di ChatGPT, un pensiero. Perché dovremmo cercarlo all’interno di un cervello?
In realtà, la definizione di «modelli linguistici di grandi dimensioni» è fuorviante. Come ho spiegato sopra, non sono modelli linguistici in senso stretto, sono piuttosto modelli relazionali basati sulle probabilità e si è scoperto che tal modelli sono molto efficienti se usati con il linguaggio. Tuttavia se si guarda dentro e si vede come funzionano, si vede che, sebbene siano estremamente efficienti nell’estrapolare la struttura del linguaggio, non contengono niente di esplicitamente linguistico. Sono dei potentissimi estrattori di relazioni statistiche da qualsivoglia insieme di dati (o di eventi) gli venga fornito. Questa è una interessante analogia con il cervello umano che, da un punto di vista neurale e, pace Chomsky, non contiene niente di esplicitamente linguistico.
Sia nel caso del nostro cervello che nel caso di un LLM non è possibile trovare al loro interno niente che abbia una corrispondenza diretta con le frasi che vengono ascoltate e prodotte. Al contrario, in un algoritmo classico dell’era pre-LLM, si potevano trovare stringhe di informazione che, al netto di eventuali codifiche, potevano essere lette. Per esempio, queste frasi che state probabilmente leggendo su un PC o su un cellulare, si trovano rappresentate all’interno del vostro dispositivo in modo più o meno diretto. Questo è falso sia nel caso del vostro cervello sia nel caso di ChatGPT che non contengono la frase, ma una struttura probabilistica che, all’occorrenza è in grado di generare queste frase. È come se, tra input e ouput non ci fosse niente: solo probabilità che permettono di creare ogni volta la giusta sequenza di lettere (che però non è contenuta dentro il sistema, cervello o LLM che sia).
Insomma, i modelli linguistici di grandi dimensioni o LLM hanno analogie profonde con il cervello umano e ci costringono a rivedere una serie di pregiudizi sulla nostra mente. Non siamo più sicuri che le categorie di pensiero e comprensione, così supponentemente attribuite agli esseri umani, siano qualcosa di più della presuzione di nobiltà o di gusto. In fondo, il linguaggio privato e il pensiero sono stati messi in dubbio dal molti autori – filosofi e neuroscienziati. Se persino uno scrittore come E.M. Forster ha detto «come faccio a sapere quello che penso se non lo vedo scritto», è lecito interrogarsi sulla natura del pensiero e quindi della conoscenza. Oggi, grazie agli LLM, stiamo passando dall’età dell’informazione all’età della conoscenza artificiale: la conoscenza non è più una nostra esclusiva. Le conseguenze di questa invasione di campo saranno profonde. Pensiamoci!
Riccardo Manzotti, Full Professor of Theoretical Philosophy, Università IULM
Per maggiori informazioni sulle pubblicazioni, clicca sul profilo autore Amazon Riccardo Manzotti >>>
@ILLUS. by FRANCENSTEIN, 2023





