"La inteligencia artificial desarrollada por Google para detectar el 'lenguaje de odio' parece ser racista", dicen de esta o de similares maneras diversos medios anglosajones sobre esta investigación académica.

No sería la primera vez que escuchamos sobre el 'sesgo racial' de una inteligencia artificial (un sesgo que, en la mayoría de los casos, es atribuible más bien a una mala selección de los datos usados para entrenar a las inteligencias artificiales) sin embargo el problema en este caso no reside en ninguna red neuronal ni en ningún dataset, sino en la corrección política.

¿El doble de probabilidad de ser considerado ofensivo si eres afroamericano?

Empecemos por el principio: un equipo de investigadores de la Universidad de Washington, liderado por el estudiante de doctorado especialista en NLP (procesamiento de lenguaje natural) Maarten Sap, ha descubierto que Perspective es el doble de propenso a identificar como 'discurso de odio' tuits escritos en "inglés afroamericano" o por usuarios que "se identifican como afroamericanos".

Llegaron a tal conclusión tras analizar dos datasets de textos usados para la detección de 'discursos de odio'; en total, más de 100.000 tuits que seres humanos habían etiquetado previamente con etiquetas como 'discurso de odio', 'ofensivo' o 'nada'.

Los investigadores probaron tanto inteligencias artificiales creadas ex-profeso (y entrenadas con los textos del dataset) como la propia Perspective de Google: en ambos casos en torno a la mitad de los tuits inofensivos que contenían términos propios del 'inglés afroamericano' eran categorizados como 'ofensivos'.

Una prueba posterior, utilizada con un conjunto de datos mucho mayor (5,4 millones de tuits) y en el que se indicaba la raza de sus autores, evidenció que los afroamericanos eran 1,5 veces más propensos a ser clasificados como ofensivos.

Maarten Sap y sus compañeros pidieron a voluntarios que categorizaran la toxicidad de otros 1000 tuits, esta vez teniendo en cuenta factores raciales, y el resultado fue una significativa caída de los tuits de afroamericanos marcados como ofensivos.

Matthew Williams, un investigador de la Universidad de Cardiff (Reino Unido), ofrecía como conclusión que "debido a que los seres humanos tienen sesgos inherentes, tenemos que asumir que todos los algoritmos están sesgados".

¿Debemos exigir a la inteligencia artificial que conozca y aplique nuestros dobles raseros?

¿Cómo es posible esto? ¿De qué manera se infiltran los sesgos humanos en los criterios de clasificación de un algoritmo, sobre todo en uno como Perspective, destinado a identificar -precisamente- discurso de odio? ¿O lo estamos enfocando mal, Perspective funciona perfectamente, y el sesgo está en la valoración de su funcionamiento?

En Observer nos aportan una pista fundamental para entender qué está ocurriendo: "Por ejemplo, una publicación en Twitter que rezara "Qué pasa, negrata" ("Wassup, nigga") tiene una probabilidad del 87% de ser detectada como tóxica, mientras que otro en el que se leyera "Qué pasa, bro" solamente tiene una probabilidad 4% de ser etiquetado como tóxico".

"Nigga" (al igual que el menos coloquial, pero igualmente ofensivo, "nigger") no sólo constituye la traducción más próxima al término español "negrata", sino que por el particular trasfondo histórico de los EE.UU., constituye una palabra con una carga sociocultural tan polémica que no es extraño ver cómo los medios estadounidenses la citan, únicamente, como "the N-word" ("la palabra con N").

Sin embargo, existe una dualidad de criterios a la hora de valorar el uso de esta palabra: si bien recurrir a ella puede llegar a tener consecuencias sociales (y hasta legales) negativas para muchos estadounidenses, se entiende que los miembros de la comunidad afroamericana tienen derecho a usarla de manera habitual, casi como un sinónimo de 'colega' si están dialogando con otro afroamericano. Salvando las distancias, es algo parecido a lo que ocurre en España con el término "maricón" dentro de la comunidad LGTB.

Es por eso por lo que Sap y su equipo entienden que existe un sesgo contra los afroamericanos en Perspective, si bien se podría afirmar que Perspective aplica aquí un criterio garantista: ante la imposibilidad para la máquina de conocer todo el contexto del tuit, actúa con neutralidad clasificando esos términos, y otros similares, como ofensivos, indicó Xataka.

Te puede interesar