Ambigüitat i malentesos: com la IA navega la comunicació humana

De quantes maneres podem llegir l’oració “la jove veu l’amenaça”? Entenem que potser hi ha una jove que veu una amenaça o, d’altra banda, és possible que una veu amenaci algú. És difícil saber exactament quin significat és l’adient si no veiem l’oració contextualitzada, però amb tot, som capaços d’imaginar el context i detectar ambigüitats. En canvi, per a la IA aquesta tasca no és tan senzilla com ho és per a nosaltres.

Els nous avenços en el camp de la intel·ligència artificial i l’aprenentatge automàtic han introduït millores en eines com el ChatGPT per tal d’apropar-lo a la comunicació humana. I, generalment, la IA fa una feina decent. Potser no acaba d’entendre l’exemple de “la jove veu l’amenaça”, però sí que és capaç de veure l’ambigüitat i les diferents interpretacions possibles d’una oració com “la Laura no surt al carrer assenyadament”. Com s’entrena la IA perquè pugui mantenir la il·lusió d’una conversa amb un ésser humà? Compren, o només imita?

La intel·ligència artificial i la complexitat del llenguatge humà

Alguns sistemes d’IA fan servir tècniques de processament del llenguatge natural (NLP del seu nom anglès) per identificar patrons i inferir significat. El Natural Language Processsing fa un tractament computacional del llenguatge humà a través de l’anàlisi lèxica, sintàctica, semàntica i morfològica. Potser ens sembla un concepte massa tècnic, però el NLP és a moltes eines que fem servir diàriament com la traducció automàtica o el reconeixement de parla.

Ara mateix, la IA té certes limitacions. Pel que fa al llenguatge, encara li costa copsar les subtileses de la comunicació humana i fer-ne una interpretació matisada. En aquest sentit, l’ambigüitat és un dels seus punts febles. En lingüística, definim aquest concepte com a un fenomen segons el qual una expressió lingüística té interpretacions diferents.

Som ambigus constantment quan ens comuniquem. A vegades sense voler perquè no som prou clars amb les nostres instruccions, a vegades intencionadament com quan fem una broma amb doble sentit. Una oració també pot ser ambigua perquè les paraules tenen més d’un significat. Sovint, no hi ha cap problema perquè els humans omplim els buits que deixa l’ambigüitat amb el context. Per exemple, si diem “has vist la samarreta de l’elefant?” sabem que ens referim a una samarreta que té un dibuix d’un elefant i no a una peça de roba dissenyada per a l’animal. No és que l’altre significat sigui incorrecte gramaticalment, però el nostre context sociocultural ens empeny a entendre l’oració d’una manera concreta. Si llegim una recepta i ens diu que freguem el tomàquet sobre el pa, sabem que cal fregar-lo per la molla i no per la crosta.

La intel·ligència artificial, en canvi, infereix el significat servint-se de l’estadística. Els models probabilístics en IA assignen probabilitats a les diferents respostes possibles i trien la més probable en funció d’un context determinant. Ara bé, com podem saber si la IA és veritablement competent a l’hora d’interpretar contextos i proporcionar respostes? Aquí entra la prova d’esquemes de Winograd.

Amb la idea de millorar el Test de Turing —dissenyat el 1950 per identificar si una IA és o no intel·ligent—, Hector Levesque va formular unes preguntes per tal que la resposta demanés coneixement i comprensió del context típic. Aquestes oracions no suposen cap problema per als humans, però donar la resposta correcta no és tan fàcil per a la IA.

“Vaig estendre les estovalles sobre les taules per protegir-les. Protegir què?” La resposta ens pot semblar evident, protegir les taules! Però per arribar a aquesta conclusió cal saber que les estovalles sovint serveixen per protegir les taules i no a l’inrevés. Ens cal aquesta peça clau del context, del funcionament del món, per tal de desxifrar el missatge. ChatGPT és capaç de contestar correctament aquesta pregunta, però els resultats no sempre són tan bons amb altres esquemes de Winograd.

En versions anteriors, si preguntàvem “l’advocat ja havia fet la pregunta al testimoni, i es va mostrar reticent a repetir-la. Qui es va mostrar reticent a repetir-la?”, ChatGPT responia “En aquesta frase, ‘es’ és una forma pronominal que fa referència al testimoni. Per tant, la frase es refereix al testimoni com a la persona que es va mostrar reticent a repetir la pregunta”. En aquest cas, ChatGPT no era capaç de respondre correctament i fallava el test perquè li mancava la clau del context que els humans tenim: tradicionalment, en un judici és l’advocat qui fa preguntes i no el testimoni. En versions més actualitzades, respon “En aquest context, ‘es va mostrar reticent a repetir-la’ fa referència a l’advocat. Així que l’advocat va ser qui es va mostrar reticent a repetir la pregunta al testimoni”. ChatGPT va millorant en les seves respostes i pot arribar a ser capaç de resoldre correctament les ambigüitats si té el context suficient i ha estat entrenat amb les dades adients.

Category: Escola, Aprèn