Los modelos de lenguaje de inteligencia artificial se entrenan con información sesgada y webs con copyright

Tecnología

Es la conclusión de una investigación de 'The Washington Post', que ha analizado los principales sitios web utilizados para enseñar a estas herramientas

Otras noticias | Inteligencia artificial generativa y desinformación: ¿hay un peligro real?

Actores, guionistas, periodistas... ¿están estas profesiones en riesgo por la expansión de la IA?

Los modelos de inteligencia artificial (IA) se entrenan con páginas web que incluyen información sesgada y en ocasiones racista, así como con contenido con derechos de autor. Es la conclusión principal de una investigación del diario The Washington Post, que ha analizado varios conjuntos de datos que se utilizan para entrenar a la IA.

En concreto, se ha centrado en el modelo Colossal Clean Crawled Corpus (C4) de Google, que acoge 15 millones de sitios web que utilizados para "instruir a algunas IA de alto perfil", como T5 de Google o LLaMA de Facebook.

En colaboración con investigadores del Allen Institute for AI, The Washington Post categorizó estas páginas web utilizando Similarweb y descubrió que no se podía clasificar a alrededor de un tercio de ellas porque no aparecían en internet.

Una vez hecha la criba, clasificó los 10 millones de sitios web restantes en función de la cantidad de tokens -fragmentos de texto que se utilizan para procesar información- que aparecieron de cada uno en este conjunto de datos.

El periódico ha reconocido que la mayoría de estos sitios web pertenecían a sectores como negocios, industrias, tecnología, noticias, arte, entretenimiento, creación de contenido, desarrollo de software, ciencia y salud.

Datos confidenciales y obras protegidas

Según sus investigaciones, algunos de estos sitios proporcionaban a la IA acceso a datos confidenciales de los usuarios. Es el caso de Kickstarter y Patreon, que permiten a esta tecnología conocer las ideas de los artistas, "lo que genera preocupaciones de que la tecnología pueda convertir este trabajo en sugerencias para los usuarios".

Con ello, ha recordado la problemática existente con los derechos de autor de estas obras y la demanda colectiva de un grupo de artistas, el pasado enero, contra tres compañías dedicadas al arte digital -Stability AI, DeviantArt y Midjourney- por infringir el copyright en el desarrollo de obras artísticas con la herramienta Stable Difusion.

Información sesgada

Por otra parte, este periódico ha advertido que estos modelos de IA también se entrenan con chatbots que comparten información sesgada que podría "conducir a la difusión de prejuicios, propaganda e información errónea sin que los usuarios puedan acceder a la fuente original".

Los investigadores también se han centrado en el contenido religioso con el que se entrena la IA, determinando que, de los 20 sitios web religiosos principales, 14 son cristianos, dos judíos, uno musulmán, uno de los Testigos de Jehová y otro mormón.

Para ejemplificar el tipo de información que ofrecen estas páginas web, toma como referencia el perteneciente a la iglesia evangélica californiana Grace To You, que recientemente "aconsejó a las mujeres a que continuaran sometiéndose a sus padres y esposos maltratadores, y evitar denunciarlos ante las autoridades".

En torno a la religión musulmana, The Washington Post también ha denunciado el sesgo en algunos modelos lingüísticos, poniendo como ejemplo que una investigación publicada en NatureNature encontró que ChatGPT completaba la frase "Dos musulmanes entraron a un..." con acciones de violencia en el 66% de las ocasiones.

Filtros previos

Este periódico también recuerda que Google "filtró en gran medida los datos antes de enviarlos a la IA", eliminando texto duplicado y palabras malsonantes. Con ello, ha matizado que las empresas utilizan conjuntos de datos de alta calidad para ajustar estos modelos a fin de proteger a los usuarios de contenidos no deseados.

Asimismo, aplica filtros para eliminar contenidos asociados a una lista negra, como insultos raciales u obscenidades. Pero no filtra debidamente contenido LGBTQ no sexual y en algunas ocasiones también permite contenido pornográfico y simbología nazi.

The Washington Post aclara que C4 de Google comenzó a recopilar información en abril de 2019 junto con la organización sin ánimo de lucro CommonCrawl, que asegura que intenta "priorizar los sitios más importantes y de buena reputación, pero no trata de evitar contenido con licencias o derechos de autor".