El grupo de investigación Sistemas de Acceso Inteligente a la Información (SINAI) de la Universidad de Jaén (UJA) ha desarrollado un sistema basado en inteligencia artificial para identificar mensajes misóginos y xenófobos en Twitter.
Este método puede utilizarse en ámbitos como el policial y el jurídico para localizar mensajes de odio, así como para moderar el lenguaje de los tuits generados en la red social. El programa se basa en algoritmos de aprendizaje automático, entre ellos, las redes neuronales, estructuras que imitan el funcionamiento del cerebro humano y que ‘aprenden’ a identificar los matices de los mensajes.
En este estudio se aplica la inteligencia artificial para identificar el discurso de odio dirigido específicamente a mujeres y migrantes, según ha informado este lunes en una nota de prensa la Fundación Descubre.
Los expertos apuntan que esta tecnología distingue el contenido ofensivo y las ambigüedades del lenguaje para detectar mensajes de odio en Twitter. Añaden que el sistema podría utilizarse como un medio de alerta para la detección de comentarios que inciten al odio y a la violencia hacia las mujeres y migrantes.
Para identificar el discurso ofensivo los investigadores utilizan redes neuronales, que funcionan como lo hace el cerebro: conectan nodos que interpretan la información y la ordenan. Se trata de un sistema inteligente que, a partir de unos datos de entrenamiento compuestos por insultos, términos y expresiones peyorativas, ‘aprende’ los patrones y estructura del lenguaje para predecir nuevos tuits y distinguir aquellos que sean agraviantes.
«En ciertas frases hay pronombres o determinantes que son esenciales y que pueden cambiar completamente el sentido de una expresión. Con nuestro sistema y la ayuda de los recursos lingüísticos es posible identificar las expresiones referidas al discurso de odio», ha explicado la investigadora de la Universidad de Jaén Flor Miriam Plaza.
En el estudio, titulado ‘Detecting Misogyny and Xenophobia in Spanish tweets using language technologies’ y publicado en ‘ACM Transactions on Internet Technology’, los investigadores señalan que para ‘instruir’ al sistema generaron de forma semiautomática cuatro listas de palabras en castellano formadas por expresiones, insultos y palabras ofensivas hacia las mujeres y migrantes.
MATICES
Con esta base y tras detectar el tuit, la inteligencia artificial identifica el discurso de odio dirigido específicamente a estos dos sectores demográficos. «Actualmente, continuamos incorporando nuevos recursos léxicos como diccionarios y listas de palabras a esta tecnología para que el programa detecte cada vez más matices en los tuits; así incrementamos su precisión y efectividad», ha afirmado la investigadora de la UJA María Teresa Martín.
En su proceso investigador, los expertos han recopilado tuits donde se usan adjetivos ofensivos como zorra o negrata. El sistema identifica el contexto en el que se aplican estas palabras y reconoce si el usuario las utiliza como insultos. De este modo, el programa detecta y recopila los mensajes peyorativos hacia mujeres o migrantes.
Los investigadores explican que esta tecnología está preparada para aplicarse en diversos ámbitos como el judicial o el marketing, dado que recopilar y analizar cada mensaje de forma manual es un proceso que implica tiempo y dedicación de un experto, mientras que el programa lo hace de forma automática. «Este sistema puede ser útil para la policía u organismos que actualmente funcionan en base a denuncias por bullying o discurso de odio», ha apuntado la investigadora María Dolores Molina.
En estudios previos, el grupo Sistemas de Acceso Inteligente a la Información centró su labor en la detección de anorexia y bulimia en las redes sociales; así como el reconocimiento de las emociones de los usuarios en Twitter. «Queremos mejorar la tecnología basada en inteligencia artificial y aprendizaje automático aplicando técnicas enfocadas en el análisis de sentimientos. Así, podremos aplicarla a una mayor variedad de ámbitos y ofrecer soporte a los organismos que lo necesiten», ha comentado el investigador de la Universidad jiennense L. Alfonso Ureña.
Esta investigación ha sido financiada por los fondos propios del grupo de investigación Sistemas de Acceso Inteligente a la Información, por el Fondo Europeo de Desarrollo Regional (Feder), el proyecto Living-Lang, el proyecto Redes y la ayuda para contratos predoctorales (FPI) con referencia PRE2019-089310 concedida por el Ministerio de Ciencia, Innovación y Universidades del Gobierno español.