El lenguaje, la tecnología y la sociedad son los tres mundos que entrelaza Flor Plaza del Arco (29 años, Villacarillo, Jaén) en su investigación estadística. Analiza las emociones que hay en los textos de las redes sociales y detecta si hay en ellos delitos de odio, es decir, comentarios que discriminen a personas por sus características como el género, la raza, la procedencia o una discapacidad. También busca métodos que le ayuden a identificar y mitigar los sesgos o estereotipos que estén presentes en modelos de lenguaje, como ChatGPT. Gracias a su trabajo ha sido galardonada con el Premio por la Sociedad Científica Informática de España (SCIE) y la Fundación BBVA, que incentiva a investigadores jóvenes en informática.
La investigadora compara su trabajo de inteligencia artificial (IA) con la educación que le da un padre a un hijo: “Imagínate que el niño es el modelo. Al principio le enseñamos a hablar en español, y el niño tiene un conocimiento general del español. Conforme va creciendo, le puedes ir diciendo que no diga ciertas cosas porque, por ejemplo, son un insulto o que tenga cuidado si va a herir a alguien. Vas ajustando el modelo para que aprenda a detectar el discurso de odio”. Plaza del Arco es investigadora postdoctoral de informática en la Universidad de Bocconi en Milán.
Pregunta. ¿Cuáles son los delitos de odio más frecuentes en redes sociales?
Respuesta. Los delitos de odio con respecto al sexismo y a la migración son los dos que más solemos escuchar. También nos hemos enfocado mucho en los delitos con respecto a la misoginia, ya que vemos que hay una discriminación en este sentido. Hemos desarrollado diferentes modelos y recursos para que los modelos aprendan a detectar los delitos de odio. Uno de los riesgos de estos modelos son los sesgos y los estereotipos que producen; se han entrenado con los datos presentes en internet, en Wikipedia y son un reflejo de la sociedad.
P. ¿Puede poner algún ejemplo de los estereotipos?
R. Desarrollamos un método para ver si los modelos representaban estos estereotipos y vimos que a las mujeres se le asociaba más con emociones como la tristeza o con emociones relacionadas con los cuidados, mientras que a los hombres se le asociaba más con el orgullo, la ambición o la agresividad. Un ejemplo es el algoritmo de Google que etiquetaba a las personas de color como gorilas, y tuvieron que retirarlo. Era un sesgo racista de la máquina, y Google se comprometió a buscar una solución al error. Tienen consecuencias materiales y por eso es importante detectar este tipo de sesgos y mitigarlos. Para eso la calidad de los datos con los que se entrenan los sistemas es fundamental, y que el humano esté ahí revisando, también.
P. ¿A qué se refiere con datos de calidad?
R. A que los modelos no contengan información personal. Antes, por ejemplo, si le preguntabas al modelo cómo suicidarse, el modelo respondía dando consejo. Ahora el modelo dice que no te puede responder a ello. Se está trabajando mucho en detectar este tipo de temas de seguridad, de sesgos y de estereotipos.
P. ¿Cómo puede la inteligencia artificial detectar los delitos de odio?
R. Vimos que no había recursos del español para la detección del discurso de odio, tanto en textos etiquetados, como para enseñar a la máquina a detectar este discurso de odio. No vale como una mera traducción del inglés al español. En español tenemos nuestra propia expresión y hay que enseñárselo a los modelos. Me enfoqué mucho en el desarrollo de este recurso y lo utilicé para entrenar a los sistemas de inteligencia artificial a detectar el discurso de odio en español. Al principio fueron modelos muy sencillos y ahora son más complejos, capaces de comprender y de generar el lenguaje humano. Se ajusta con textos etiquetados, le paso un texto y le digo: este texto es un discurso de odio, y esto no.
P. ¿Cuánto español sabe ChatGPT?
R. La inteligencia artificial o modelo de inteligencia artificial ha sido desarrollado principalmente para el inglés, los textos que se le ha enseñado son en inglés. Muchos de ellos dicen que son multilingües, pero a lo mejor el porcentaje que se le ha enseñado de otro idioma como el español es un 20%. El modelo es mucho mejor reconociendo, generando y comprendiendo el inglés que el español, porque no se le ha enseñado tanto texto. Por eso es tan importante que el gobierno ahora, con la Estrategia Nacional de Inteligencia Artificial, quiere crear un modelo que entienda el español, y no solo el español, sino las lenguas cooficiales como el catalán, el vasco, etcétera. Es muy importante tener modelos que entiendan diferentes lenguas, porque todas las personas lo están utilizando, no solo una de un determinado país. El contenido en español está menos representado.
P. ¿Cómo se pueden mitigar los sesgos del modelo?
R. Lo fundamental es evaluar la calidad de los datos cuando se está entrenando el modelo. También se puede ajustar al modelo una vez que ha aprendido esos datos. Se puede ajustar o no para que lo intente desaprender. Necesitamos de distintas disciplinas, los informáticos solos no podemos trabajar en esto. Necesitamos filósofos, sociólogos, psicólogos, que nos ayuden a desarrollar este tipo de modelos para que sean más inclusivos, más éticos, más justos y responsables.
P. ¿Cómo se promueve un entorno más seguro en redes sociales?
R. Sobre todo con la investigación para combatir el discurso de odio y la desinformación. Si en Twitter se publican 1 millón de tuits al segundo, es imposible que lo trate una sola persona. Este tipo de máquina nos ayudan a detectarlos. Pueden saltar alertas diciendo que el tuit es ofensivo o que contiene desinformación. La responsabilidad de generar las políticas para ver cuando se elimina un tuit es responsabilidad de los moderadores de contenidos.
P. ¿Puede la IA detectar si detrás de ese contenido hay alguien real o no?
R. Exacto. Con la IA se puede hacer un estudio de perfil de la persona, si publica muchos tuits ofensivos o muchos posts, y se puede trasladar a cualquier red social. También puede detectar bots o detectar spam, ya que son patrones lingüísticos que estos modelos aprenden. Por ejemplo, los bots suelen, casi siempre, seguir determinados patrones lingüísticos.
P. ¿Son estructuras de frases parecidas?
R. Sí. Los modelos aprenden con los discursos de odio, le estamos enseñando el texto que contiene insultos españoles, expresiones ofensivas, etc., Son patrones lingüísticos que el modelo aprende. En mi tesis me centré en desarrollar un modelo que no solo tenga en cuenta el discurso de odio, sino que tenga en cuenta que si la emoción es negativa, como el enfado, es más posible que se dé un discurso de odio. La ironía y el sarcasmo es uno de los retos más difíciles de detectar por estos modelos de lenguaje. ¿Por qué? Porque incluso hasta a un humano le cuesta detectar cuando hay ironía o sarcasmo en un texto.
P. ¿Qué se puede hacer en otros entornos?
R. Sobre todo en la educación, es muy importante que desde pequeños se les enseñe cuáles son los riesgos de las redes sociales, todo lo que se puede encontrar en ellas ya no solo los delitos de odio. Un ejemplo es el ciberacoso, cómo las redes sociales lo han promovido. Es muy importante la educación tecnológica desde que somos pequeños porque vamos a estar en interacción continua con este tipo de tecnología en nuestra vida diaria. Para saber como utilizarla: cuando veo que una persona está siendo atacada, para saber cómo puedo avisar a la red social de que se está pasando o si me está pasando a mí, y saber cuáles son las soluciones y el apoyo que tengo. La red social, ¿va a eliminar este mensaje que me están atacando? O ¿va a eliminar el perfil de la persona? Creo que es muy importante que esto se le transmita a la sociedad en general.
P. Si alguien es víctima de un delito de odio en redes, ¿cómo puede ayudar la IA?
R. Te puede ayudar detectando esos mensajes que te están atacando. A los moderadores de contenidos de las redes les saltará una alerta de que este contenido se está generando y tendrán sus políticas para ver cómo combatirlo, cómo eliminarlo o cómo ponerse en contacto. Mi equipo de la Universidad de Jaén, con el que trabajaba durante mi doctorado, ahora está desarrollando un tipo de investigación en el que si alguien te ha comentado un mensaje ofensivo, genera una contranarrativa para hacer pensar al que está generando ese odio. Por ejemplo, si es un mensaje sexista o xenófobo, una contranarrativa sería, por ejemplo: “Tienes que pensar que todos los humanos tenemos los mismos derechos. No se puede discriminar por razones de género o de raza”.
Puedes seguir a EL PAÍS Tecnología en Facebook y X o apuntarte aquí para recibir nuestra newsletter semanal.