Europa abre la puerta a nuevas demandas contra los gigantes de la IA al obligarlos a divulgar con qué datos entrenan sus modelos | elperiodico.com

Europa quiere que inteligencia artificial y transparencia vayan de la mano. La Comisión Europea ha publicado este jueves la esperada plantilla que exige a todos los proveedores de esta tecnología divulgar los datos con los que han entrenado sus modelos, una obligación que puede tener repercusiones en todo el mundo.
En mayo del año pasado, la Unión Europea culminó la aprobación de la pionera ley que regula la IA según sus riesgos. El próximo 2 de agosto entran en vigor las normas que afectan a la la IA de propósito general, grandes modelos de lenguaje multimodales que, como ChatGPT (OpenAI), Gemini (Google), Grok (xAI), Llama (Meta) o Claude (Anthropic), pueden realizar una amplia gama de tareas. El proceso de entrenamiento es crucial pues permite que esos sistemas ‘aprendan‘ a responder a las peticiones de los usuarios mediante la generación de texto, audio o imagen.
A diferencia del código de buenas prácticas establecido por Bruselas, que es voluntario, la norma de transparencia será de cumplimiento obligado para todos los proveedores de modelos de IA que operan en la UE, aunque sean extranjeros. «Deberán elaborar y poner a disposición del público un resumen suficientemente detallado sobre el contenido utilizado para el entrenamiento del modelo de IA de uso general, de acuerdo con una plantilla proporcionada por la Oficina de IA», reza el artículo 53 de la conocida como AI Act.
Resumen exhaustivo de los datos
De esta manera, las compañías de IA deberán presentar un resumen exhaustivo del contenido utilizado en todas las etapas de entrenamiento de sus modelos, desde datos extraídos de Internet hasta información sobre los usuarios recopilada por las empresas a través de las interacciones con sus productos. En la plantilla, revisada por EL PERIÓDICO, deberán especificar el volumen de sus bases de datos, poner ejemplos del material explotado, compilar de forma agregada fuentes en línea como los nombres de dominio más relevantes y detallar qué trato se hace de ellas.
Ese resumen deberá publicarse en la página web oficial de la compañía «de forma claramente visible y accesible» cuando empiece a comercializar su modelo de IA en el mercado europeo. La obligación será aplicable a partir del próximo 2 de agosto, pero para los modelos comercializados con anterioridad –como ChatGPT, Gemini o Grok– los proveedores tendrán de margen hasta el 2 de agosto de 2027.
Derechos de autor y propiedad intelectual
La plantilla presentada hoy clarifica que los gigantes tecnológicos estarán obligados a hacer públicos los datos que alimentan sus sistemas, algo que hasta ahora han rechazado alegando, en la mayoría de casos, que se trata de un secreto comercial. La opacidad de estas compañías ha dificultado saber con precisión qué chatbots o modelos conversacionales de IA se han entrenado ilícitamente con contenido protegido por los derechos de autor, desde obras literarias a canciones o artículos periodísticos. En enero de 2024, OpenAI reconoció en un encuentro con legisladores británicos que «sería imposible entrenar los modelos actuales de IA sin material con copyright«.
La obligación establecida por Bruselas permitiría a los reguladores saber qué datos se explotan y abriría la puerta a la presentación de reclamaciones por todo tipo de infracciones. Por ejemplo, si se desvela que Google ha utilizado sin consentimiento los libros de un autor para que Gemini sepa imitar su estilo este podría utilizar ese conocimiento para querellarse contra la compañía. De esta manera, la amenaza de multas contra los proveedores de IA se dispara.
El objetivo es «aumentar la transparencia» y «facilitar a las partes con intereses legítimos, incluidos los titulares de derechos, el ejercicio y la aplicación de sus derechos en virtud del Derecho de la Unión» respetando al mismo tiempo «la necesidad de proteger la información comercial confidencial«.
Por eso, Bruselas recomienda que los proveedores de IA «actúen de buena fe y, de forma voluntaria, permitan a las partes con un interés legítimo, incluidos los titulares de derechos, previa solicitud, obtener información sobre si se ha extraído y utilizado para fines de formación contenidos que incluyan obras protegidas».
Respeto a los derechos fundamentales
La Comisión espera que la plantilla tenga «un importante valor jurídico para la correcta aplicación de la Ley de IA» y permita «aplicar, cuando proceda, medidas de mitigación para garantizar el respeto de los derechos fundamentales a la no discriminación y a la diversidad lingüística y cultural».
Esa transparencia obligada también permitiría que «instituciones y organizaciones académicas puedan evaluar de forma crítica las implicaciones y limitaciones de un modelo de IA de uso general concreto, así como los posibles riesgos y daños asociados a los datos utilizados». Un mayor acceso a esa información, espera Bruselas, «también puede contribuir a que los mercados sean más transparentes y competitivos».
La plantilla ha sido elaborada tras consultar a una «amplia gama de partes interesadas», un total de 111 actores entre los que se incluyen «proveedores de modelos de IA de uso general, asociaciones empresariales, organizaciones de titulares de derechos, el mundo académico, la sociedad civil y las autoridades públicas».
Suscríbete para seguir leyendo
Fuente de TenemosNoticias.com: www.elperiodico.com
En la sección: El Periódico – internacional
También te puede interesar




