Ne sentiamo parlare sempre più spesso, da alcuni in termini entusiastici da altri con toni catastrofici. Sono i software progettati per generare, a seguito di una richiesta e in modo automatico, conversazioni, scritte o parlate, del tutto simili a quelle umane. Innovazione straordinaria che però apre interrogativi circa le ricadute sulla società e sulla vita delle persone
I recenti sviluppi dell’intelligenza artificiale, e in particolare i grandi modelli linguistici (Llm), come Chat Gpt di Open AI e Palm/Bard di Google, rappresentano con ogni probabilità la più rilevante innovazione tecnologica a far data dall’invenzione del web. Dalla sua introduzione nello scorso novembre, Chat Gpt ha immediatamente catturato l’attenzione della pubblica opinione mondiale, scatenando l’ennesima controversia tra apocalittici e integrati (solo con toni assai più apocalittici del solito, se si considera che ci sono persone, anche molto intelligenti, che considerano questi sistemi una possibile minaccia esistenziale per l’umanità). Prendere posizioni serie e fondate su questi temi – ma anche su questioni meno apocalittiche, quali le conseguenze dell’intelligenza artificiale sul mondo del lavoro o della scuola – richiede un’idea chiara di cosa siano e di come funzionano i modelli linguistici. In questo articolo cercheremo di fornire almeno alcuni elementi di base.
Di cosa parliamo. Prima di tutto un’avvertenza. D’ora in poi parleremo di Gpt ma quanto diremo in linea di massima vale per tutti i suoi simili meno noti al grande pubblico. Gpt (acronimo di general pretrained transformer, in italiano trasformatore preaddestrato generativo) è un vasto modello di linguaggio generativo o predittivo, basato su una rete neurale. Ma cosa significa esattamente? Fondamentalmente, un Llm produce testo in risposta a una domanda fatta dall’utente, sulla base di un procedimento essenzialmente probabilistico. Ad esempio, se chiediamo al modello di completare una frase come “Il gatto saltò sul…”, esso – basandosi sulla sequenza di parole che ha letto e sulla sua conoscenza dell’italiano – può prevedere che la parola successiva sia “tavolo”. Va chiarito subito che un Llm è una vera e propria macchina di generazione del linguaggio non un motore di ricerca, una banca dati o un’enciclopedia digitale. E, di conseguenza, usarlo come tale è fondamentalmente errato. Aggiungerei che non è nemmeno un generatore di verità: qualsiasi sia la nozione di verità in cui crediamo (problema affatto semplice, visto che se ne discute da millenni), Gpt e gli altri Llm non sono in grado di generare verità, ma solo parole.
Modalità di funzionamento. Il primo problema da risolvere per costruire un generatore artificiale di parole e di discorsi sensati e coerenti è come rappresentare il linguaggio in un modo che sia accessibile a un procedimento di natura fondamentalmente matematica. Insomma, come trasformare le parole in numeri in modo tale da catturare in un senso profondo le strutture e il funzionamento del linguaggio. La tecnica detta word embedding, “incapsulamento” delle parole, ha proprio il ruolo di codificare il loro significato in un formato che la macchina può comprendere e manipolare. Risolto il primo problema, si pone quello di trovare un processo di calcolo, un algoritmo e un’architettura informatica che siano in grado di usare queste rappresentazioni per fare le cose incredibili che Gpt può fare. Questa architettura è una vastissima rete neurale, ovvero una simulazione semplificata del funzionamento delle cellule cerebrali biologiche, che si basa su due concetti: quello di trasformatore e quello di attenzione. Cerchiamo di capire di cosa si tratta. Gpt è composta da una serie di moduli che hanno il compito di analizzare il testo fornito e di rispondere sensatamente, tutto ciò tenendo conto del fatto che in un testo le parole hanno ruoli e importanza diversi. Il funzionamento di tali moduli può essere schematizzato in questo modo: Gpt riceve una porzione di testo e lo codifica in sequenze di numeri; queste sequenze passano poi ai moduli trasformatori, che utilizzano la loro “rappresentazione numerica” della lingua per stimare probabilisticamente la parola successiva. Alla fine del processo di analisi, il modello assegna a ogni parola del suo vocabolario una certa probabilità che segua la sequenza di testo che gli abbiamo somministrato. La scelta finale della parola da aggiungere avviene selezionando in modo casuale tra un insieme di candidate più probabili. Questa scelta casuale finale fornisce al modello una certa libertà e creatività linguistica.
Modalità di apprendimento. Ma come Gpt è stato dotato di tutta questa conoscenza linguistica? In realtà Gpt, come ogni rete neurale non può essere programmato. La sua conoscenza si basa su un processo di apprendimento che richiede l’esposizione a una grande quantità di esempi. Anche su questo tema occorrerebbe dilungarsi, e indulgere in dettagli tecnici e matematici che sono decisamente fuori della portata di questo articolo. Possiamo dire che l’addestramento di Gpt in realtà si basa su un insieme di tecniche diverse. La prima e la più importante è quella dell’autoapprendimento automatico. In questa fase, al modello vengono somministrate delle frasi, estratte dal web, che sono analizzate in modo da capire come le parole siano collegate tra loro. Ripetendo il processo per decine di volte per miliardi di frasi si ha Gpt. O meglio, si ha il Gpt profondo, quello che a volte straparla e dice anche cose molto cattive. Per fare in modo che Gpt impari a essere corretto, giudizioso e ragionevole, ma anche bravo quanto basta in matematica e logica, occorre aggiungere altre fasi di addestramento, che richiedono l’intervento di addestratori umani: la fase dell’addestramento supervisionato, in cui il modello è sottoposto a qualche migliaia di domande con risposte corrette scritte da esperti; e infine la fase dell’addestramento con rinforzo, una tecnica che permette di affinare la capacità di conversazione di un modello, assegnando una serie di ricompense alle sue risposte: il modello riceve una ricompensa positiva per risposte coerenti e rilevanti e una ricompensa negativa per risposte errate o non appropriate. Queste ricompense sono utilizzate per modificare i parametri della rete neurale e migliorare le sue prestazioni nel tempo. Tutta questa fase di addestramento (in particolare la prima) per un modello della dimensione di Gpt dura mesi, richiede l’uso di migliaia di unità di calcolo specializzate e soprattutto è un processo statico, nel senso che, una volta terminato, il modello non può più “imparare” nulla, a lungo termine. Ma allora, come è possibile che Gpt e simili possono svolgere tanti compiti linguistici diversi, anche quelli per cui non sono stati esplicitamente addestrati? Il fatto è che essi hanno sviluppato una serie di capacità emergenti impreviste, tra cui la capacità di estrarre nuova informazione da una conversazione. È come se potessimo addestrarli spiegando loro che cosa vogliamo che facciano (riassumere un testo, dimostrare un teorema, tradurre dall’antico occitano).
Alcune domande. Al termine di questa passeggiata nelle complesse “magie” di Gpt e dei suoi simili, possiamo tornare alle grandi questioni cui accennavamo in apertura. Prima domanda: possiamo affermare oggi che questi sistemi siano “veramente” intelligenti? La risposta è molto complicata: senza dubbio hanno una notevole intelligenza linguistica; mostrano capacità di ragionamento di senso comune; hanno sviluppato rudimentali processi di astrazione. Ma di sicuro per ora sono incapaci di ragionare su più livelli di astrazione, di pensare fuori dagli schemi, sono soggetti a errori di riferimento alla realtà, e ogni tanto tendono a inventare fatti e nozioni. E che dire poi della possibilità che abbiano una qualche forma di coscienza? La risposta oggi è certamente negativa, ma alcuni studiosi non escludono che in futuro non possano svilupparne una forma almeno parziale.
Gli effetti. C’è poi il piano delle conseguenze che queste innovazioni potranno avere nei processi produttivi, comunicativi, formativi, insomma nella società e nella vita delle persone. E qui le cose si fanno ancora più complicate. Perché in fondo il problema non è tanto l’intelligenza artificiale malevola delle saghe fantascientifiche, ma gli interessi di potere, controllo sociale e valorizzazione economica di quella parte (molto ristretta) di umanità che già oggi detiene il potere e la ricchezza. Su questi interessi il controllo democratico e le tutele normative devono agire, senza intaccare la libertà di ricerca e di innovazione. Insomma, credo che il pericolo non venga tanto dal computer Hal 9000 di 2001 Odissea nello spazio o dall’Architetto con i suoi agenti Smith di Matrix, e nemmeno dai presunti apprendisti stregoni, ma dai molti, troppi dottor Stranamore.
Chi è Fabio Ciotti?
Fabio Ciotti (Roma,1968) insegna teoria e critica computazionale della letteratura all’università di Roma Tor Vergata. L a sua attività scientifica e didattica si concentra sui temi delle digital humanities e degli studi letterari computazionali. Si è occupato dell’applicazione di metodi computazionali all’analisi dei testi letterari; della progettazione e implementazione di biblioteche digitali; dell’applicazione di modelli e tecnologie del semantic web alle discipline umanistiche. Su questi temi ha pubblicato diverse monografie e oltre quaranta articoli.