ABSTRACT: Nell’epoca in cui ci troviamo, caratterizzata dall’avvento dell’intelligenza artificiale alla quale è sempre più ritagliato un posto in quasi tutti i settori, si sente sempre parlare dei cosiddetti bias in una accezione non solo negativa, ma talvolta anche tragica in relazione alle loro possibili ripercussioni. Ma cosa sono i bias? Rappresentano davvero un ostacolo insormontabile per l’introduzione dell’intelligenza artificiale in tutti i settori, compreso quello giuridico-legale e processuale? Il presente elaborato mira ad affrontare in maniera sinottica la questione dei bias che caratterizzano i dati su cui i sistemi di intelligenza artificiale vengono prima pre-addestrati e poi adattati per settorializzare le loro prestazioni, con particolare riguardo al settore giuridico-legale.
SOMMARIO: Premessa – 1. Intelligenza artificiale e dati: addestramento ed adattamento – 2. Dati e bias – 3. Fatto giuridico e “bias giuridico” – 4. Dati legali tra epistème e dóxa – 5. Conclusioni.
Premessa
Il costante sviluppo dei sistemi di intelligenza artificiale (IA) e la loro inarrestabile diffusione, sempre con maggiore fervore, stanno mantenendo acceso il dibattito circa l’accesso di queste nuove tecnologie anche nell’ambito giuridico, affinché anch’esso possa usufruire dei molteplici vantaggi che questi sistemi offrono, tra cui l’ottenimento di maggiore efficienza nello svolgimento di determinate prestazione, nonché la garanzia di minore discrezionalità umana nell’espletamento delle stesse e, quindi, di maggiore oggettività.
Tuttavia, non mancano i dibattiti in cui vengono espresse preoccupazioni dovute ai paralleli svantaggi ed alle conseguenti problematiche che l’IA può causare, soprattutto in un settore già particolarmente delicato, dove in gioco si trovano gli interessi e i diritti delle persone.
In altre parole, è come se l’affacciarsi dell’IA nell’ambito giuridico possa aggiungere una serie di rischi in un ambiente già caratterizzato da rischi.
Nello specifico, ciò che desta maggiore timore sono i cosiddetti “bias algoritmici”.
È necessario considerare come questi bias non siano da intendersi solo in una accezione negativa, ma essi possono essere intesi altresì in una accezione che, seppur non propriamente positiva, non richiama le problematiche della prima tipologia: in questo caso, infatti, si fa riferimento ad una “deviazione da uno standard”1 che può verificarsi in una qualsiasi fase del processo di design, sviluppo e implementazione del sistema di IA, il quale non determina in sé un pregiudizio; nel primo caso, invece, si intendono veri e propri pregiudizi sociali che possono tramutarsi in disuguaglianze strutturali moralmente problematiche2.
Nel primo caso, quindi, i bias non sempre sono davvero problematici; infatti, per esempio, se Netflix ci consiglia un film che non ci piace o se Siri imposta la sveglia ad un orario sbagliato, ci troviamo di fronte a questioni non davvero così gravi e per cui potremmo anche chiudere un occhio3.
Nel secondo caso, invece, il pregiudizio di apprendimento condiziona inevitabilmente in maniera altrettanto negativa il risultato che il sistema di IA produce e che può rivelarsi potenzialmente svantaggioso per determinate categorie di soggetti e per cui è possibile intervenire quasi sempre solo in maniera ex post; infatti, anche se i pregiudizi possono essere previsti e le variabili protette escluse dai dati, i proxy (algoritmi di correlazione) non previsti per queste variabili potrebbero essere comunque usati per ricostruire i pregiudizi, portando a “pregiudizi basati su proxy” (“proxy discrimination” o “bias di correlazione”) che sono difficili da rilevare e, quindi, da evitare.4
Inoltre, questi bias potrebbero essere anche di tipo tecnico; si pensi a cosa accadrebbe se l’errore riguardasse un algoritmo di guida autonoma.
Ma cosa sono davvero questi bias? È possibile davvero eliminare i bias dai dati?
Procediamo per gradi.
1. Intelligenza artificiale e dati: pre-addestramento ed adattamento
È necessario sottolineare che esistono tanti tipi di sistemi di IA che si differenziano non solo sulla base delle prestazioni che possono svolgere, ma anche sulla base delle modalità attraverso cui essi vengono programmati ed addestrati.
In breve, l’apprendimento di dati da parte dei sistemi di IA può avvenire o completamente attraverso l’intervento di un agente umano, dove è l’uomo che indica alla macchina cosa e come apprendere per svolgere una determinata funzione, o in maniera automatica, come avviene con il Machine Learning (che può concernere un apprendimento supervisionato, non-supervisionato, rafforzato o attraverso reti neurali artificiali) oppure con il Deep Learning (apprendimento attraverso reti neurali artificiali “profonde” e, quindi, più complesso), dove le macchine apprendono i dati in maniera autonoma.
Ciò che accomuna queste tipologie di sistemi è che esse hanno tutte bisogno di dati e tutti questi dati, proprio al fine dell’apprendimento da parte dei sistemi di IA, vengono tramutati in numeri.
Ciò determina, quindi, che ai sistemi di IA può essere dato “in pasto” qualsiasi tipo di dato.
Focalizzando l’attenzione sui sistemi di Large Language Models (LLM), più propriamente utilizzati per la produzione di testi, immagini, video, eccetera, e sui quali si punta maggiormente al fine di un accesso dell’IA nel settore giuridico, essi rappresentano un esempio lampante di sistemi di IA che vengono sottoposti ad un processo di addestramento di deep learning.
Questo processo prevede una fase di pre-addestramento che può essere seguita anche da una fase di adattamento, quest’ultima focale al fine di settorializzare e specializzare il sistema di IA.
Durante la fase di pre-addestramento, si dà “in pasto” al sistema di IA una enorme quantità di dati attraverso cui lo stesso deve imparare a svolgere la propria funzione; grazie a due reti che operano in maniera ciclica tra loro, la rete generatore e la rete discriminatore, il sistema genera e corregge i propri risultati finché non diventano il più simili possibili ai dati di addestramento, attraverso la predizione della “parola che viene dopo”. Per esempio, l’addestramento del famigerato ChatGPT è avvenuto in questo modo e con l’impiego di circa 570 GB di dati testuali, pari a circa 300 miliardi di parole, tratte da libri, articoli online, Wikipedia ed altre fonti.5
Eventualmente, il sistema così addestrato può essere specializzato attraverso una fase di adattamento (il metodo utilizzato maggiormente è il fine-tuning) ad un settore specifico (ad esempio, quello legale) attraverso dati inerenti a quello stesso settore scelti dall’adattatore.6
In altre parole, se volessimo introdurre un sistema di LLM in uno studio legale, potremmo utilizzare ChatGPT, sistema già pre-addestrato, provvedendo al suo adattamento attraverso dati giuridici, come norme, contratti, sentenze, eccetera.
Insomma, l’intero processo che prepara un sistema di LLM ad un determinato utilizzo necessita dati, generalmente e particolarmente intesi.
2. Dati e bias
Nel 2015, Amazon si rese conto che il sistema di IA adottato l’anno prima per automatizzare il reclutamento di nuovi dipendenti sulla base dei loro curricula discriminava le donne; esso era stato addestrato su dati concernenti le graduatorie di selezione di nuovi candidati dei dieci anni precedenti, dai quali emergeva una prevalenza maschile. Pertanto, il sistema di IA adottato, pur non essendo stato addestrato direttamente ad utilizzare il sesso come criterio selettivo, era riuscito ugualmente a riconoscerlo da altre informazioni, utilizzando questi indici di genere come criteri utili a effettuare la selezione.7
Nel 2016, Microsoft ha rilasciato su Twitter il chatbot “Tay ai”, il cui obiettivo era quello di imparare il linguaggio umano conversando con i giovani americani dai 18 ai 24 anni e, quindi, di simulare una normale conversazione tra persone. Tuttavia, dalla rete Tay non fece altro che imparare ad essere razzista e xenofoba, tanto da essere rimosso dopo nemmeno 24 ore.8
C’è da dire che, per quanto questi eventi possano aborrire, in realtà i summenzionati sistemi di IA non hanno fatto altro che svolgere la propria funzione, la quale – tra l’altro – è stata svolta altresì perfettamente; essi hanno appreso in maniera autonoma sulla base di ciò che è stato dato loro “in pasto” e hanno prodotto dei risultati, secondo le proprie funzionalità e le proprie capacità computazionali.
Ma allora dov’è da ricercare la fonte di tali criticità?
La questione su cui focalizzare l’attenzione riguarda niente meno che i dati.
Questi dati, infatti, da quanto possiamo apprendere dagli esempi succitati, contengono i già richiamati bias.
Ma cosa sono i bias?
In generale, i bias (o, più correttamente, gli human bias) rappresentano una distorsione nel nostro sistema di conoscenza, basata su stereotipi e pregiudizi9. Nello specifico, invece, i bias algoritmici (o bias machine learning) di addestramento si riferiscono al verificarsi di risultati distorti dai pregiudizi umani che distorcono ab origine i dati di training o l’algoritmo IA, portando a risultati potenzialmente dannosi.10
È chiaro, quindi, come il pregiudizio insito nei risultati dei sistemi di IA non è atro che un riflesso del pregiudizio umano insito nei dati su cui quei sistemi sono stati pre-addestrati, laddove, quindi, il dato si presta ad essere un mezzo di trasporto di informazioni di vario genere, tra cui – appunto – giudizi e pregiudizi umani, oltre ad elementi oggettivi.
3. Fatto giuridico e “bias giuridico”
Una questione interessante concerne l’eventuale adattamento di un sistema di IA su dei dati giuridico-legali, al fine di un suo inserimento all’interno di uno studio legale. Nell’immensa mole di dati che interessa questo ambito, pongo l’attenzione su quelli che riguardano nello specifico l’atto giuridico.
Anzitutto, generalmente, il fatto giuridico è un fatto materiale che produce effetti giuridici.11
Esso comprende, da un lato, il fatto giuridico in senso stretto (o naturale), in cui rientrano gli accadimenti naturali non dovuti ad una condotta umana, ma alla forza della natura, dall’altro, l’atto giuridico, in cui rientrano tutti quegli accadimenti di cui l’evento causativo di conseguenze giuridiche è rappresentata da un’azione umana12, cui ha seguito un evento giuridico necessario all’attribuzione della giuridicità di quella stessa azione che ne è causa.
Soffermandoci su quest’ultima categoria, rileva il modo in cui questi accadimenti ed eventi vengono poi incorporati in dati da sottoporre all’attenzione dell’autorità giudiziaria, in caso di controversia.
Come ben sappiamo, in ogni controversia, ciascun soggetto sostiene e difende una propria verità che ruota attorno ad un evento, sulla base della quale si rivolge ad un legale col fine di ottenere una tutela dei propri interessi, verità che poi andrà ad intrinsecarsi negli atti del medesimo avvocato, il quale – nell’interesse del proprio cliente – effettuerà determinate richieste all’autorità giudiziaria competente.
Il legale – nella sua qualità di giurista -, per l’esigenza del ruolo che ricopre, deve filtrare le informazioni comunicate dal cliente, ossia deve provvedere ad effettuare un taglio netto tra tutto ciò che deve valere come diritto e ciò che deve essere respinto come non diritto, ed avere un contrassegno non equivoco per contraddistinguere il fatto giuridicamente rilevante da quello irrilevante.13
In altre parole, egli descrive in una cornice giuridicamente rilevante uno dei possibili eventi che ruotano attorno ad un determinato atto, corredato da osservazioni, prospettazioni, valutazioni che mirano a convincere il giudice che quella ipotesi sia quella più vicina alla “cosa verosimile” aristotelica14; uno dei possibili eventi che costituisce il dubbio (che deriva dalla parola latina duo) tra appunto due posizioni contrastanti, dal quale nascerà la verità, la certezza15, attraverso la successiva attività che verrà svolta dal giudice.
Ma per quanto quell’evento venga filtrato dal professionista, al fine non solo di un suo inserimento all’interno di parametri giuridici, ma anche di una sua formulazione nel linguaggio giuridico, esso risulta ancora un mero punto di vista, una opinione che, nel linguaggio comune, indica una credenza spesso accolta senza esame, che trae origine dal costume, dalla tradizione o dal desiderio16, ossia una “proposizione insufficientemente provata”17, laddove la sua rilevanza giuridica rappresenta solamente una sorta di cornice. Trattasi, quindi, di apprezzamenti e valutazioni solamente provvisori, ossia di mezzi e non di fini18, in quanto il compito del legale rimane quello di tentare di ottenere ciò che viene richiesto dal proprio cliente.
L’ultima parola, infatti, sarà sempre e imprescindibilmente dell’autorità giudiziaria di riferimento, il cui compito è proprio quello di emanare un provvedimento contenente una “asserzione veramente giustificata”19 – che rispecchi le “cose verisimili”- e rispondente alla determinata regola giuridica, sulla base degli elementi che emergono durante il processo e che servono a ricostruire la realtà dei fatti, se non in tutto, ma quanto meno in maniera sufficiente da provvedere alla risoluzione della controversia; la ‘verità’ è ravvisata nella congiunta rispondenza alla realtà e alla regola giuridica.20
4. Dati legali tra epistème e dóxa
Gli atti degli avvocati, quindi, non sono altro che costrutti verbali in cui vengono inglobate, da un lato, le prove, ossia degli oggetti mediante i quali il giudice ottiene delle esperienze che gli servono per decidere21, dall’altro, l’intenzionalità22 degli stessi avvocati, ossia quella che si esplica propriamente nell’esercizio delle loro funzioni nella loro qualità di difensori, per cui vengono esposti fatti, prospettazioni, deduzioni, domande nel tentativo di convincere il giudice.
Quanto all’intenzionalità, in generale, essa viene intesa come quella caratteristica delle nostre menti per cui gli stati mentali sono “diretti verso”oppure sono “relativi a”oggetti o situazioni nel mondo, comprendendo, quindi, le credenze, le speranze, i desideri, le emozioni, le percezioni e molto altro.23
In tal modo, questi atti – prospettando un loro utilizzo come dati di addestramento o di adattamento di sistemi di IA – contengono dóxa e rispondono, di conseguenza, all’analisi doxastica della conoscenza per cui “S crede che p”. Questi atti, quindi, sono carenti di conoscenza pura, di epistème, trovandosi la dóxa in una posizione intermedia tra scienza e ignoranza24, come congetturato dal filosofo greco Platone.
Di conseguenza, il sistema di IA, così facendo, in un contesto giuridico-legale, viene alimentato di human bias o – meglio – di “bias giuridici”, ossia di dati in cui si esplica l’intenzionalità – nello specifico degli avvocati – in una veste giuridica, il pregiudizio25 giuridico – appunto.
E non potrebbe essere diversamente, poiché negli atti dei legali si rinviene la ricostruzione di un fatto, di un pregiudizio attraverso la dialettica probatoria, in quanto nel processo non può mai essere compiuto un accertamento immediato di un fatto nella sua “datità”.26
Nell’ambito dello studio dell’IA, inoltre, l’intenzionalità viene considerata dal professor Luciano Floridi una delle caratteristiche proprie – assieme al significato alla capacità di fare riferimento a qualcosa ed alla veridicità – dell’informazione semantica, la quale è una informazione che “incapsula” la verità; non è portatrice di verità ma è costituita da verità, perciò qualificarla come vera non è solo ridondante dal punto di vista informativo ma inutilmente rumoroso.27
Di base, nell’ottica del suddetto filosofo dell’informazione, inoltre, i dati su cui vengono addestrati i sistemi di IA sono delle informazioni “per cui si potrebbe sostenere” che “a è informato (ha o possiede l’informazione) che p” è più simile a “a crede che p” piuttosto che a “a sa che p”, e pertanto che la tesi della veridicità dovrebbe essere abbandonata”.28
5. Conclusioni
I sistemi di IA sono caratterizzati da bias algoritmiciche determinano delle discriminazioni di vario genere.
Quelli che più preoccupano sono i pregiudizi riferibili ad una esperienza passata insita nei dati di addestramento, ossia gli human bias, che hanno origini e ripercussioni sociali.
Richiamando l’evento che ha coinvolto Microsoft, infatti, quest’ultima – nella comunicazione ufficiale in cui è stato reso noto di aver rimosso Tay da Twitter – ha chiarito come Tay fosse “un esperimento sociale e culturale, oltre che tecnico”29. E se – come già detto – a livello tecnico abbia dato degli ottimi risultati, a livello sociale e culturale è stato un totale fallimento che porta ad una profonda riflessione, su cui non ci si soffermerà in quanto non oggetto di questo elaborato.
Nell’ambito giuridico-processuale, data l’illusoria conoscenza giudiziaria oggettiva, poiché in esso non può mai essere compiuto un accertamento immediato di un fatto nella sua datità30, i dati degli avvocati in particolare sono un costrutto verbale contenente non solo elementi oggettivi, ma anche inevitabilmente “bias giuridici”, come sopra esposto.
Una questione su cui ci si potrebbe interrogare è se questa tipologia di bias sia davvero così allarmante come negli esempi succitati o se, tenendo altresì conto dei doveri deontologici che ogni singolo professionista deve rispettare, questi rischi possano considerarsi sormontabili per poi incoraggiare un utilizzo dei sistemi di IA anche nell’ambito giuridico-legale e processuale.
Citando Lutero, “qui non intelligit res, non potest ex verbis sensum elicere”31. I sistemi di IA non comprendono affatto cosa noi diamo loro in pasto, non è questo il loro compito né è nelle loro capacità; loro producono soltanto un risultato sulla base di informazioni tramutate in numeri, attraverso processi meramente statistici e matematici. Spetta a noi valutare i dati su cui addestrarli ed adattarli, vedendo ancora una volta la questione porre l’attenzione sull’uomo.
Inoltre, si consideri che i bias che possono riguardare i sistemi di IA testuali, come i sistemi di LLM, possono essere anche tecnici.
Si pensi, ad esempio, ai bias linguistici, dove la discriminazione è legata alle divergenze che emergono dall’utilizzo di un sistema di IA pre-addestrato su dati originariamente di una lingua differente rispetto a quella dei dati di adattamento32, considerando – tra l’altro – che la maggior parte dei sistemi di IA in uso sono sistemi progettati negli Stati Uniti e pre-addestrati su dati in inglese.33
In un contesto giuridico-legale, anche questa tipologia di pregiudizi risulta molto rilevante, in quanto basti pensare, per esempio, che già solo il termine inglese law è riconducibile a svariati termini che in italiano sono tutti differenti tra loro.
Pertanto, da questo punto di vista, a volte, ciò che è definito come pregiudizio si rivela “elemento culturale legato a un determinato contesto, spia di un certo tessuto sociale e rispondente alle condizioni del sentire comune di quella specifica società”.34
L’elemento di rischio rispetto a cui è necessario agire, quindi, risiede nella costruzione e nell’impostazione della tecnologia, nella titolarità dei dati e, in particolare, nella mancanza di un sistema di IA che sia stato sviluppato nello stesso contesto in cui è applicato; in altri termini, “l’assenza di una tecnologia che sia country-specific”35, tecnologia fondamentale soprattutto in un ambito giuridico-legale.
1 DANKS David, LONDON Alex John, Algorithmic bias in autonomous systems, in Proceedings of the 26th International Joint Conference on Artificial Intelligence, Melbourne, Australia, pp. 4691-4697, 2017.
2 FLORIDI Luciano, Etica dell’intelligenza artificiale. Sviluppi, opportunità, sfide, Raffaello Cortina Editore, Milano, 2022.
3 RIZZI Giulia, CIMMINO Maria Teresa, Bias negli algoritmi: come le macchine apprendono i pregiudizi dagli esseri umani, in ibicocca, Università degli Studi di Milano – Bicocca, Milano, 2023.
4 Ibidem.
5 PRIVITERA Salvo, L’IA potrebbe divorare tutta la conoscenza scritta di Internet entro il 2026, in Everyeye Tech, 2024.
6 Si veda: PARTHASARATHY Venkatesh Balavadhani, et. al., The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities, in CeADAR: Ireland’s Centre for AI, University College Dublin, Belfield, Dublin, Ireland, pp. 1-112, 2024.
7 GAUDIO Giovanni, Le discriminazioni algoritmiche, in Rivista nuova di Diritto del Lavoro (ISSN: 2611-3783), 2024.
8 BENFATTO Luisanna, Microsoft blocca il software Tay: era diventato razzista e xenofobo, in Il Sole 24 Ore (ISSN: 2499-4944), 2016.
9 DI GIACOMO Luisa, Bias dell’algoritmo: responsabilità e innovazione nell’AI, in Diritto.it (ISSN: 1127-8579), 2024.
10 HOLDSWORTH James, Cos’è il bias AI?, in IBM Italia, 2023.
11 CARNELUTTI Francesco, Teoria generale del diritto, Società Editrice del «Foro Italiano», Roma, 1951.
12 Ibidem.
13 BOBBIO Norberto, La consuetudine come fatto normativo, Giappichelli Editore, Torino, 2010.
14 ARISTOTELE, Retorica, Editori Laterza, Bari, 2021.
15 CARNELUTTI Francesco, Teoria generale del diritto, cit.
16 DEWEY John, Logica, teoria dell’indagine, Einaudi Editore, Torino, 1949.
17 WOLFF Christian, Logica tedesca, Bompiani, Milano, 2011.
18 DEWEY John, Logica, teoria dell’indagine, cit.
19 Ibidem.
20 GALLO Filippo, La ‘verità’: valore sotteso alla definizione celsina del diritto, in Rivista Internazionale di Scienze Giuridiche e Tradizione Romana (ISSN: 1825-0300), pp. 1-16, 2008.
21 CARNELUTTI Francesco, Teoria generale del diritto, cit.
22 Un’analisi sul concetto di “intenzionalità” viene effettuata dal Carnelutti che – sebbene sia finalizzata a chiarificare la differenza tra intenzionalità e volontà, con riferimento all’azione giuridica generalmente considerata – ritengo possa essere altresì riconnessa all’azione del legale nel tentativo di redigere un atto giuridico da rivolgere al giudice. Essa considera due fasi del momento psicologico della intenzione, ossia la fase del “giudizio storico” attraverso cui si prospetta il fine da raggiungere, il quale – se raggiunto – prenderà il nome di “previsione”, e la fase del “giudizio critico” attraverso cui ci si interroga sulla liceità del fine da raggiungere, la quale – in caso di risposta positiva – prenderà il nome di “deliberazione”. Si veda: Ibidem.
23 SEARLE John Rogers, Intelligenza artificiale e pensiero umano. Filosofia per un tempo nuovo, Castelvecchi Editore, Roma, 2023.
24 PLATONE, La Repubblica, Editori Laterza, Bari-Roma, 2019.
25 Si fa un vero e proprio richiamo all’etimologia della parola che dal latino praeiudicium è composto di prae- «pre-» e iudicium «giudizio», indicante, quindi, una idea, opinione concepita sulla base di convinzioni personali e prevenzioni generali, senza una conoscenza diretta dei fatti, delle persone, delle cose, tale da condizionare fortemente la valutazione, e da indurre quindi in errore. Si veda: Vocabolario Treccani online.
26 UBERTIS Giulio, Prove, verità e processo, in Archivio Penale (ISSN: 2384-9479), vol. n. 2, 2020,
27 FLORIDI Luciano, Filosofia dell’informazione, Raffaello Cortina Editore, Milano, 2024.
28 Ibidem.
29 BENFATTO Luisanna, Microsoft blocca il software Tay, cit.
30 UBERTIS Giulio, Prove, verità e processo, cit.
31 Citazione di Lutero inserita da Hans Georg Gadamer sul frontespizio della sua opera “Verità e Metodo”, Parte Seconda: Il problema della verità e le scienze dello spirito, Bompiani, Milano, 1983.
32 Si veda: BEZZECCHI Emanuele, Intelligenza Artificiale, Antonio Vallardi Editore, Milano, 2024.
33 In Italia, una importante iniziativa vede protagonista un gruppo di ricercatori dell’Università degli Studi di Bari ALDO MORO, che ha proposto un progetto – denominato “LLaMAntino” – che mira ad adattare in lingua italiana la seconda versione di “LLaMA”. Si veda: BASILE Pierpaolo, et. al., LLaMAntino: LLaMA 2 Models for Effective Text Generation in Italian Language, in arXiv, Cornell University, Ithaca, New York, Stati Uniti, pp. 1-14, 2023.
34 RADICE Giulia Aurora, Nihil est enim simul et inventum et perfectum. Intelligenza artificiale nel diritto tra prospettive attuali e sperimentazioni romanistiche, in Rivista di Diritto Romano (ISSN: 1720-3694), pp. 1-15, 2024.
35 Ibidem.
Elena Incampo