Menú Cerrar

✅ Internacionales – «Las «bibliotecas sombra» están en el centro de las demandas contra OpenAI»

"Shadow libraries" are at the heart of lawsuits against OpenAI


La comediante y autora Sarah Silverman es una de las tres escritoras que presentó una demanda colectiva contra la empresa de tecnología OpenAI, creadora de ChatGPT, por infracción de derechos de autor. Los escritores también demandaron a Meta, que tiene su propio modelo de lenguaje llamado LLaMa, por entrenarse con su contenido sin permiso.

En la demanda, los demandantes alegan que «no dieron su consentimiento para el uso de sus libros con derechos de autor como material de entrenamiento para ChatGPT», afirmando que los textos fueron «ingeridos y utilizados para entrenar» al chatbot de inteligencia artificial. Para generar respuestas que parezcan escritas por un humano, los bots de IA se entrenan con grandes cantidades de datos recopilados de Internet. Pero OpenAI no revela qué textos fuente utiliza para entrenar sus modelos, citando «el panorama competitivo y las implicaciones de seguridad» de los modelos a gran escala como GPT-4.

Se utilizan diferentes tipos de materiales para entrenar modelos de lenguaje a gran escala, y los libros son una parte clave de los conjuntos de datos de entrenamiento porque ofrecen ejemplos extensos de escritura de alta calidad. Pero según la demanda de Silverman, la mayoría de los datos de los libros provienen de la capacitación de OpenAI en «bibliotecas de sombra ilegales» que contienen el trabajo de los escritores.

Entonces, ¿qué sabemos sobre cómo se entrena ChatGPT? OpenAI ha dicho que el 15% del conjunto de entrenamiento para GPT-3, el modelo de lenguaje que se utiliza actualmente en la versión gratuita del bot de IA, proviene de «dos corpora de libros basados en Internet» que la compañía simplemente llama «Books1» y «Books2», según la demanda. Sin embargo, hay pistas sobre estos dos conjuntos de datos. «Books1» está relacionado con Project Gutenberg (una biblioteca de libros electrónicos en línea con más de 60,000 títulos), un conjunto de datos popular para que los investigadores de IA entrenen sus datos debido a la falta de derechos de autor, afirma la demanda. Se estima que «Books2» contiene alrededor de 294,000 títulos, señala.

Es probable que la mayoría de los «corpora de libros basados en Internet» provenga de sitios web de bibliotecas de sombra como Library Genesis, Z-Library, Sci-Hub y Bibliotik. Los libros agregados por estos sitios están disponibles en grandes cantidades a través de sitios web de torrents, conocidos por alojar materiales con derechos de autor. ¿Qué son exactamente las bibliotecas de sombra?

Las bibliotecas de sombra son bases de datos en línea que brindan acceso a millones de libros y artículos que están fuera de impresión, difíciles de obtener y de pago. Muchas de estas bases de datos, que comenzaron a aparecer en línea alrededor de 2008, se originaron en Rusia, que tiene una larga tradición de compartir libros prohibidos, según la revista Reason.

Pronto, estas bibliotecas se hicieron populares entre académicos con poco dinero en todo el mundo debido al alto costo de acceder a revistas académicas, algunas de las cuales supuestamente llegan a costar hasta $500 por un artículo totalmente de acceso abierto. Estas bibliotecas de sombra también se llaman «bibliotecas piratas» porque a menudo infringen el trabajo con derechos de autor y afectan las ganancias de la industria editorial. Un estudio de 2017 de Nielsen y Digimarc (pdf) encontró que los libros pirateados estaban «deprimiendo las ventas legítimas de libros en hasta un 14%».

Los gobiernos de todo el mundo han tomado medidas enérgicas contra las bibliotecas de sombra. En octubre pasado, el FBI confiscó varios sitios web asociados a Z-Library y acusó a dos ciudadanos rusos de infracción criminal de derechos de autor, fraude electrónico y lavado de dinero. Pero después de que el gobierno de EE. UU. cerró una de las principales ubicaciones en línea del sitio, otros crearon espejos del sitio, como informó Vice. Los tribunales de Francia e India también han ordenado a los proveedores de servicios de Internet que bloqueen Z-Library.

Soluciones para manejar la capacitación de contenido con derechos de autor

Silverman no está sola en demandar a empresas de IA generativa. A principios de este año, un grupo de artistas visuales demandó a Stability AI, Midjourney y DeviantArt por infracción de derechos de autor. En noviembre pasado, los programadores de GitHub presentaron una demanda colectiva contra GitHub, su empresa matriz Microsoft Corp. y OpenAI, que cuenta con Microsoft como uno de sus principales inversionistas. La demanda alega que GitHub Copilot, un producto de IA, se basa en una «piratería de software de código abierto sin precedentes».

En respuesta a las crecientes demandas, Pau Garcia, fundador de Domestic Data Streamers, una firma de consultoría en arte, escribió en una publicación de LinkedIn en enero que las empresas de IA deberían cambiar sus modelos de entrenamiento para utilizar únicamente el material que está en dominio público o eliminar el trabajo del artista de los modelos. García agregó que las empresas pueden pagar directamente a los artistas por el uso de su contenido como datos de entrenamiento.

Las empresas también están experimentando con permitir que los artistas tengan voz en qué contenido pueden usar los modelos de IA. En mayo, la plataforma de transmisión de música Audius lanzó una nueva función que permite a los artistas crear una página para su trabajo que cualquiera puede usar para crear pistas generadas por IA.

Fuente de TenemosNoticias.com: qz.com

Publicado el: 2023-07-10 16:15:00
En la sección: Quartz

Publicado en Clasificadas, Internacionales