El acuerdo de 1.500 millones de dólares de Anthropic sobre derechos de autor cambia la IA para siempre

El acuerdo de 1.500 millones de dólares de Anthropic sobre derechos de autor cambia la IA para siempre

AI Copyright Legal Regulation

Introducción

La industria de la inteligencia artificial acaba de experimentar un cambio sísmico. Anthropic, la compañía detrás de Claude, uno de los asistentes de IA más avanzados disponibles hoy en día, enfrenta un histórico acuerdo de derechos de autor de 1.500 millones de dólares—el más grande de la historia. Esto no es un pequeño revés legal ni un acuerdo rutinario; representa un ajuste de cuentas fundamental con la forma en que las empresas de IA han estado adquiriendo datos de entrenamiento y plantea preguntas críticas sobre el futuro del desarrollo de IA. El acuerdo revela que Anthropic descargó deliberadamente libros pirateados de fuentes ilegales como Library Genesis para entrenar sus modelos, creyendo que esta práctica estaba protegida por el uso legítimo. El tribunal rechazó de manera decisiva este argumento, dictaminando que el uso de Anthropic era “inherentemente e irremediablemente infractor”. Esta decisión resonará en toda la industria de la IA, obligando a las empresas a reconsiderar sus estrategias de adquisición de datos y posiblemente remodelando la economía de la construcción de modelos fundacionales. Entender este acuerdo es crucial para cualquiera interesado en la IA, la ley de derechos de autor, la estrategia empresarial o el futuro de la tecnología.

Thumbnail for El acuerdo de derechos de autor de Anthropic explicado

¿Qué es una infracción de derechos de autor en el contexto del entrenamiento de IA?

La infracción de derechos de autor ocurre cuando alguien utiliza una obra creativa sin permiso de una manera que viola los derechos exclusivos del titular de los derechos. En contextos tradicionales, esto podría significar copiar una canción, reproducir un libro o distribuir una película sin autorización. Sin embargo, la aplicación de la ley de derechos de autor a los datos de entrenamiento de inteligencia artificial presenta desafíos novedosos y complejos que los tribunales apenas están empezando a abordar de manera integral. Cuando las empresas de IA entrenan sus modelos, requieren enormes conjuntos de datos que contienen texto, imágenes, código y otras obras creativas. Históricamente, algunas empresas han argumentado que utilizar material protegido para fines de entrenamiento califica como “uso legítimo”—una doctrina legal que permite el uso limitado de material protegido sin permiso para fines como crítica, comentario, educación o investigación. El caso de Anthropic desafía fundamentalmente esta interpretación al establecer que descargar libros pirateados específicamente para entrenar modelos comerciales de IA no constituye uso legítimo, independientemente de las intenciones de la empresa o la naturaleza transformadora del modelo resultante.

La distinción entre adquisición legítima de datos e infracción de derechos de autor depende de varios factores. Primero, la fuente de los datos importa significativamente. Si una empresa compra libros, licencia contenido o utiliza material disponible públicamente con la atribución adecuada, está operando dentro de los límites legales. Sin embargo, si deliberadamente obtiene material de repositorios pirateados—sitios web que distribuyen ilegalmente obras protegidas—cruza la línea hacia la infracción. En segundo lugar, el propósito y el carácter del uso influyen en el análisis de uso legítimo. Aunque entrenar un modelo de IA podría parecer un uso transformador, el tribunal en el caso Anthropic determinó que usar material pirateado con fines comerciales para construir un producto rentable difiere fundamentalmente de los usos educativos o de investigación. En tercer lugar, el efecto en el mercado de la obra original es relevante. Cuando Anthropic entrenó a Claude con libros pirateados sin compensar a autores o editoriales, potencialmente redujo el valor de mercado de esas obras y el incentivo para licenciar legítimamente. Estos factores combinados crearon un caso abrumador contra la defensa de uso legítimo de Anthropic.

Por qué fallaron los argumentos de uso legítimo para Anthropic

El concepto de uso legítimo ha sido durante mucho tiempo un pilar de la ley de derechos de autor, diseñado para equilibrar los derechos de los creadores con el interés público en acceder y construir sobre obras creativas. El uso legítimo permite la reproducción limitada de material protegido para fines que incluyen crítica, comentario, reportajes, enseñanza, becas e investigación. Muchas empresas de IA, incluida Anthropic, creían inicialmente que entrenar modelos de IA con material protegido entraba dentro de esta categoría protegida, especialmente si el modelo resultante no reproducía las obras originales literalmente. Sin embargo, el análisis del tribunal en el acuerdo de Anthropic revela por qué este argumento falla fundamentalmente en el contexto de material pirateado obtenido deliberadamente.

El tribunal aplicó la prueba de cuatro factores de uso legítimo establecida en la ley de derechos de autor. El primer factor examina el propósito y el carácter del uso. Aunque el entrenamiento de IA podría parecer transformador—convirtiendo texto en representaciones matemáticas y pesos de modelo—el tribunal enfatizó que el uso de Anthropic era explícitamente comercial. Anthropic no realizaba investigación académica ni creaba materiales educativos; estaban construyendo un producto comercial diseñado para generar ingresos. El segundo factor considera la naturaleza de la obra protegida. Los libros, especialmente los publicados, reciben fuerte protección de derechos de autor porque representan una inversión creativa y económica significativa. El tercer factor analiza cuánto de la obra original se utilizó. Anthropic no usó fragmentos o extractos; descargaron libros completos de fuentes pirateadas, incorporando obras enteras en sus conjuntos de datos de entrenamiento. El cuarto y, a menudo, más decisivo factor examina el efecto en el mercado de la obra original. Al usar libros pirateados sin compensación, Anthropic redujo el incentivo para licenciar legítimamente y potencialmente disminuyó el valor de mercado de esas obras.

Lo que hizo que el caso de Anthropic fuera particularmente grave fue la naturaleza deliberada de sus acciones. No fue una infracción accidental o un área gris donde una empresa creyó razonablemente estar operando legalmente. La evidencia interna reveló que Anthropic obtenía material de sitios pirateados sabiendo que estas fuentes eran ilegales. Tomaron una decisión empresarial calculada de usar material pirateado gratuito en lugar de licenciar contenido legítimamente. Esta intencionalidad fortaleció el caso en su contra y probablemente influyó en el lenguaje severo del tribunal, describiendo su uso como “inherentemente e irremediablemente infractor”. El acuerdo establece esencialmente que ningún grado de uso transformador puede superar el problema fundamental de usar deliberadamente material pirateado con fines comerciales.

La magnitud de la adquisición de datos de Anthropic: más de 500.000 libros

Comprender la magnitud de la infracción de derechos de autor de Anthropic requiere captar la escala de sus esfuerzos de adquisición de datos. Los documentos del acuerdo revelan que Anthropic descargó más de 500.000 libros de fuentes pirateadas para entrenar sus modelos Claude. No fue un pequeño descuido ni una inclusión menor de material protegido; representó un esfuerzo sistemático y a gran escala para construir conjuntos de datos de entrenamiento usando fuentes ilegales. El número 500.000 es asombroso si se considera que cada libro representa trabajo creativo, propiedad intelectual y valor económico. No eran obras oscuras o descatalogadas; muchas eran libros contemporáneos y comercialmente valiosos de grandes editoriales y autores que dependen de las ventas para su sustento.

El proceso de descubrimiento que destapó esta infracción fue, en sí mismo, notable. Los demandantes realizaron 20 declaraciones, revisaron cientos de miles de páginas de documentos e inspeccionaron al menos tres terabytes de datos de entrenamiento. No se trató de encontrar unos pocos archivos pirateados; requirió un análisis forense exhaustivo para rastrear los conjuntos de datos de Anthropic hasta sus fuentes ilegales. El análisis de metadatos fue crucial—al examinar las huellas digitales y características de los datos, los investigadores pudieron vincular de manera definitiva los conjuntos de datos de entrenamiento de Anthropic con repositorios pirateados como Library Genesis y Pirate Library Mirror. Esta evidencia técnica hizo imposible que Anthropic alegara ignorancia o argumentara que desconocía la fuente de sus datos.

La estructura del acuerdo refleja la escala de la infracción a través de su sistema de pagos escalonados. El acuerdo base de 1.500 millones de dólares representa el mínimo, calculado en función de las 500.000 obras confirmadas. Sin embargo, el acuerdo incluye una disposición crítica: si la lista final de obras supera las 500.000, Anthropic debe pagar 3.000 dólares adicionales por cada obra por encima de ese umbral. Esto significa que si finalmente se identifican 600.000 obras infractoras, Anthropic adeudaría 300 millones de dólares adicionales. Esta estructura incentiva una investigación exhaustiva y asegura que el monto del acuerdo refleje el verdadero alcance de la infracción. Los pagos de intereses, que podrían superar los 126 millones de dólares al momento del pago final, aumentan aún más el coste total de las acciones de Anthropic.

Desglose del acuerdo: cómo debe pagar Anthropic

La estructura financiera del acuerdo de Anthropic revela la determinación del tribunal de imponer consecuencias significativas a la vez que reconoce la viabilidad continua de la empresa. El acuerdo no es una suma global pagada de inmediato; en cambio, está estructurado en varios pagos a lo largo del tiempo, con plazos específicos y acumulación de intereses. Este enfoque cumple múltiples propósitos: garantiza que Anthropic pueda pagar sin quiebra inmediata, permite la acumulación de intereses que compensa a los demandantes por el valor temporal del dinero y crea presión financiera continua que refuerza la seriedad del fallo.

El calendario de pagos comienza con 300 millones de dólares debidos en los cinco días hábiles siguientes a la orden de aprobación preliminar del tribunal. Este pago inmediato demuestra el compromiso de Anthropic y proporciona una compensación inicial a la clase demandante. Otros 300 millones deben pagarse en los cinco días hábiles siguientes a la orden de aprobación final del tribunal, acelerando aún más el cronograma de compensación. Los pagos restantes se estructuran a más largo plazo: 450 millones más intereses deben pagarse dentro de los 12 meses posteriores a la aprobación preliminar, y otros 450 millones más intereses dentro de los 24 meses. El componente de intereses es significativo—para cuando Anthropic realice el pago final, los intereses podrían acumularse hasta aproximadamente 126,4 millones de dólares, llevando el valor total del acuerdo a más de 1.600 millones.

Para contextualizar estas cantidades, considera que el acuerdo representa cuatro veces el monto de los daños legales (750 dólares por obra) que un jurado podría otorgar y 15 veces el monto (200 dólares por obra) si Anthropic hubiera argumentado con éxito la infracción inocente. Este multiplicador refleja la opinión del tribunal de que la conducta de Anthropic fue intencionada y deliberada, no accidental. El acuerdo también se produce en el contexto de la reciente ronda de financiación Serie F de 13.000 millones de dólares de Anthropic, con una valoración posterior de 183.000 millones. Aunque 1.500 millones es sustancial, representa aproximadamente el 11,5% de su financiación reciente, una cantidad que los inversores aparentemente consideraron en su valoración. Esto sugiere que los grandes inversores en empresas de IA están empezando a valorar el riesgo de litigios y acuerdos por derechos de autor como un coste de hacer negocios en la industria de la IA.

Perspectiva de FlowHunt: gestionando el cumplimiento en los flujos de trabajo de IA

A medida que las empresas de IA navegan por paisajes legales y regulatorios cada vez más complejos, la importancia de la gestión de flujos de trabajo conscientes del cumplimiento se vuelve primordial. FlowHunt reconoce que el acuerdo de Anthropic representa un momento decisivo para la industria, que requiere nuevos enfoques de gobernanza de datos, obtención de contenido y prácticas de entrenamiento de modelos. Las organizaciones que construyen sistemas de IA deben ahora implementar procesos rigurosos para garantizar que todos los datos de entrenamiento se obtienen legalmente, se licencian adecuadamente y se documentan para fines de cumplimiento.

El acuerdo crea desafíos prácticos inmediatos para las empresas de IA. Deben auditar sus conjuntos de datos existentes para identificar cualquier material pirateado o no licenciado, implementar nuevos procesos de adquisición de datos que prioricen fuentes licenciadas y mantener documentación detallada de la procedencia de los datos. Las capacidades de automatización de FlowHunt pueden agilizar estos flujos de trabajo de cumplimiento creando procesos sistemáticos para validación de datos, verificación de fuentes y documentación de licencias. En lugar de depender de revisiones manuales propensas a errores e inconsistencias, las organizaciones pueden implementar flujos de trabajo automatizados que verifiquen las fuentes de datos contra repositorios pirateados conocidos, confirmen acuerdos de licencia y detecten posibles problemas de cumplimiento antes de que se conviertan en problemas legales.

Además, FlowHunt permite a las organizaciones construir trazabilidad transparente para sus procesos de entrenamiento de IA. Cuando los reguladores, inversores o equipos legales necesitan entender cómo se entrenó un modelo y de dónde provienen sus datos, la documentación exhaustiva se vuelve esencial. Al automatizar la documentación y el seguimiento de fuentes de datos, acuerdos de licencia y verificaciones de cumplimiento, FlowHunt ayuda a las organizaciones a demostrar que han tomado medidas razonables para asegurar el cumplimiento legal. Este enfoque proactivo no solo reduce el riesgo legal, sino que también genera confianza con las partes interesadas que cada vez dan más importancia a los fundamentos éticos y legales de los sistemas de IA.

Implicaciones más amplias: cómo este acuerdo cambia el desarrollo de la IA

El acuerdo de Anthropic representa mucho más que un problema legal de una sola empresa; señala un cambio fundamental en el funcionamiento futuro de la industria de la IA. Este precedente influirá en cómo otras empresas de IA abordan la adquisición de datos, cómo los inversores evalúan las startups de IA y cómo los reguladores piensan sobre la protección de los derechos de autor en la era de la IA. El acuerdo establece esencialmente que la mentalidad de “muévete rápido y rompe cosas” que caracterizó el desarrollo temprano de la IA ya no es viable cuando se trata de la infracción de derechos de autor.

En primer lugar, el acuerdo acelerará el cambio de fuentes de datos pirateadas hacia contenido licenciado. Empresas como OpenAI, Google, Meta y otras que pueden haber utilizado estrategias similares ahora se enfrentan a un claro peligro legal. El New York Times está demandando actualmente a OpenAI por una infracción similar, y este acuerdo de Anthropic probablemente influirá en ese caso y otros. Como resultado, veremos un aumento en la demanda de conjuntos de datos licenciados, lo que elevará los precios del contenido valioso. Editoriales, medios de comunicación y creadores de contenido verán cómo su propiedad intelectual adquiere cada vez más valor a medida que las empresas de IA compiten por fuentes de datos legítimas. Esto representa un cambio importante en la dinámica del mercado—en lugar de acceder libremente a material pirateado, las empresas de IA tendrán que negociar acuerdos de licencia y pagar por los derechos de contenido.

En segundo lugar, el acuerdo aumentará el coste de entrenar modelos fundacionales. Cuando las empresas deban licenciar contenido en lugar de usar fuentes pirateadas, la economía del desarrollo de IA cambiará radicalmente. Entrenar un modelo de lenguaje grande requiere enormes cantidades de datos, y licenciar esos datos a gran escala será costoso. Este aumento de costes probablemente se trasladará a los consumidores a través de precios más altos para servicios de IA, o reducirá la rentabilidad de las empresas de IA. Las startups más pequeñas que carecen de capital para licenciar grandes conjuntos de datos pueden encontrar cada vez más difícil competir con grandes empresas que pueden permitirse los costes de licencia. Esto podría conducir a una consolidación en la industria de la IA, con un número menor de empresas bien capitalizadas dominando el mercado.

En tercer lugar, el acuerdo impulsará una mayor inversión en infraestructura de gobernanza y cumplimiento de datos. Las empresas de IA deberán implementar sistemas sólidos para rastrear la procedencia de los datos, verificar acuerdos de licencia y asegurar el cumplimiento de la ley de derechos de autor. Esto crea oportunidades para empresas que proporcionen soluciones de gobernanza de datos, cumplimiento y auditoría. Las organizaciones deberán invertir en herramientas y procesos que les ayuden a gestionar las dimensiones legales y éticas del desarrollo de IA, no solo los aspectos técnicos. Esto representa una maduración de la industria de la IA, pasando de un enfoque puramente en el rendimiento del modelo hacia un enfoque más integral que incluya consideraciones legales, éticas y de cumplimiento.

Cómo el acuerdo restringe el uso futuro de material pirateado por parte de Anthropic

Si bien el acuerdo financiero es sustancial, las restricciones en el uso futuro de material protegido por parte de Anthropic pueden resultar aún más trascendentales. El acuerdo incluye tres limitaciones críticas sobre la exención de responsabilidad que recibe Anthropic. Comprender estas restricciones revela que el acuerdo no es simplemente una transacción financiera, sino una reestructuración integral de cómo puede operar Anthropic en el futuro.

Primero, la exención solo se extiende a reclamaciones pasadas y explícitamente no cubre ninguna reclamación por reproducción, distribución o creación de obras derivadas en el futuro. Esto significa que si Anthropic continúa utilizando material pirateado o incurre en infracción similar en el futuro, enfrentará nuevas demandas y responsabilidad adicional. El acuerdo no otorga inmunidad general; solo cubre la infracción específica que ocurrió en el pasado. Esta restricción orientada al futuro crea una exposición legal continua para Anthropic si no cambian fundamentalmente sus prácticas de adquisición de datos.

En segundo lugar, el acuerdo no cubre en absoluto las reclamaciones por outputs. Esta es una restricción especialmente importante que muchos pasan por alto. Aunque Anthropic entrenó a Claude con libros pirateados, el acuerdo no impide que los titulares de derechos demanden si las respuestas de Claude reproducen texto protegido casi literalmente. Imagina que un usuario le pide a Claude que escriba algo y Claude genera texto que coincide estrechamente con fragmentos de uno de los libros pirateados usados en el entrenamiento. El titular de los derechos podría demandar a Anthropic por esa salida, argumentando que el modelo está reproduciendo su obra. Esto crea un riesgo de responsabilidad que se extiende más allá de la fase de entrenamiento hasta el uso operativo del modelo.

En tercer lugar, el acuerdo solo libera reclamaciones por las obras incluidas en la lista específica de obras. Si un titular de derechos posee varias obras y solo una aparece en la lista, conserva el derecho a demandar por la infracción de sus otras obras. Esto significa que el acuerdo está cuidadosamente limitado a los libros identificados durante la investigación. Si posteriormente se descubre que Anthropic también utilizó otros libros pirateados no incluidos en la lista actual, esos titulares de derechos pueden iniciar reclamaciones separadas. Esta estructura incentiva la investigación exhaustiva y evita que Anthropic utilice el acuerdo como escudo ante todas las reclamaciones por derechos de autor.

Requisito de destrucción de datos: previniendo el uso indebido futuro

Uno de los requisitos prácticos más significativos del acuerdo es que Anthropic debe destruir todos los archivos de libros pirateados en los 30 días siguientes al fallo final. Este requisito cumple múltiples propósitos: impide que Anthropic siga utilizando el material pirateado, demuestra el compromiso del tribunal para detener la infracción y crea un plazo claro y verificable para el cumplimiento. Sin embargo, el requisito de destrucción también pone de relieve una limitación importante de los remedios por derechos de autor en el contexto de la IA.

Anthropic debe destruir los archivos pirateados, pero no tiene que destruir ni volver a entrenar a Claude. Esta distinción es crucial porque volver a entrenar un modelo de lenguaje grande desde cero sería extraordinariamente costoso y lento, potencialmente costando miles de millones y requiriendo meses de recursos computacionales. Obligar a Anthropic a destruir Claude los dejaría, de hecho, fuera del negocio, lo que el tribunal aparentemente consideró un remedio excesivo. En cambio, el acuerdo se centra en prevenir el uso futuro del material pirateado, permitiendo que Anthropic continúe operando con el modelo ya entrenado.

Esto crea una situación legal y ética interesante. Claude fue entrenado con libros pirateados, y esos datos de entrenamiento están ahora incrustados en los pesos y parámetros del modelo. No se puede simplemente “desentrenar” un modelo de partes específicas de sus datos de entrenamiento. El conocimiento derivado de esos libros pirateados sigue formando parte de las capacidades de Claude. Sin embargo, el acuerdo impide que Anthropic use esos mismos archivos pirateados para entrenar nuevos modelos o para seguir accediendo al material original. Esto representa un compromiso pragmático entre responsabilizar a Anthropic y evitar un remedio tan severo que destruiría completamente la empresa.

El requisito de destrucción también plantea retos de cumplimiento. Anthropic debe probar que ha destruido todas las copias de los archivos pirateados y que no quedan copias de seguridad o secundarias. Esto requiere prácticas integrales de gestión de datos y posiblemente verificación por terceros. Es probable que el acuerdo incluya disposiciones para auditorías y verificación para asegurar que Anthropic realmente cumple, y no solo afirma cumplir mientras mantiene copias ocultas de los datos.

Quién cobra: la distribución de los fondos del acuerdo

Los fondos del acuerdo se distribuirán entre “todos los titulares de derechos de autor legales o beneficiarios del derecho exclusivo de reproducir copias del libro en las versiones de LibGen o Palei descargadas por Anthropic”. Este lenguaje es importante porque significa que los fondos van a los titulares reales de los derechos—autores, editoriales y otros titulares de derechos—en lugar de a un fondo general o al gobierno. El proceso de distribución probablemente será complejo, requiriendo la identificación de todos los titulares de derechos de los más de 500.000 libros y la determinación de la compensación adecuada para cada uno.

El mecanismo de distribución probablemente implique un proceso de reclamaciones en el que los titulares de derechos presenten documentación que demuestre su propiedad de obras específicas incluidas en los datos de entrenamiento de Anthropic. Este proceso podría llevar años, ya que los administradores revisan miles o millones de reclamaciones. Algunos titulares de derechos serán fáciles de identificar—grandes editoriales con registros claros. Otros pueden ser más difíciles, especialmente para obras antiguas, libros autoeditados o obras donde la titularidad ha cambiado varias veces. El acuerdo deberá abordar cómo manejar los fondos no reclamados y qué ocurre si no se puede localizar a los titulares de derechos.

Esta estructura de distribución también plantea preguntas interesantes sobre el valor de las diferentes obras. ¿Debe recibir la misma compensación una novela superventas que un texto académico poco conocido? ¿La compensación debe basarse en el valor de mercado de la obra, la cantidad de veces que se utilizó en el entrenamiento o algún otro criterio? Es probable que los documentos del acuerdo incluyan orientación sobre estas cuestiones, aunque la fórmula específica puede no ser pública. Lo que está claro es que el acuerdo representa una transferencia significativa de riqueza de Anthropic a la comunidad creativa, reconociendo que los titulares de derechos merecen compensación cuando su obra se utiliza para entrenar modelos comerciales de IA.

El precedente: cómo afecta esto a otras empresas de IA

El acuerdo de Anthropic resonará en toda la industria de la IA, influyendo en cómo otras empresas abordan la adquisición de datos y evalúan su exposición legal. Varias otras grandes empresas de IA enfrentan actualmente litigios por derechos de autor, y este acuerdo probablemente influirá en esos casos. El New York Times está demandando a OpenAI por infracción de derechos de autor, alegando prácticas similares de usar contenido protegido sin permiso para entrenar modelos. El acuerdo de Anthropic establece que los tribunales no aceptarán argumentos de uso legítimo cuando las empresas utilicen deliberadamente material pirateado con fines comerciales, lo que refuerza significativamente el caso del New York Times.

Más allá del litigio activo, el acuerdo influirá en cómo las empresas de IA toman decisiones estratégicas sobre la adquisición de datos. Las empresas que han utilizado datos pirateados o de origen dudoso se verán presionadas a auditar sus prácticas y, potencialmente, llegar a acuerdos proactivos para evitar sentencias mayores. Los inversores en empresas de IA exigirán garantías de que los datos de entrenamiento están legalmente obtenidos y probablemente requerirán declaraciones y garantías sobre la procedencia de los datos. Esto aumentará los requisitos de diligencia debida para las inversiones en IA y puede ralentizar las rondas de financiación, ya que los inversores realizan investigaciones más exhaustivas de las prácticas de datos.

El acuerdo también establece un precedente para el cálculo de daños y perjuicios. El acuerdo de 1.500 millones de dólares por 500.000 obras se traduce en aproximadamente 3.000 dólares por obra, una cifra significativamente superior a los daños legales. Esto fija las expectativas para futuros acuerdos y sentencias. Si otras empresas enfrentan litigios similares, deben esperar daños en un rango similar, lo que hará muy clara la exposición financiera por infracción de derechos de autor. Esta realidad económica probablemente llevará a las empresas a recurrir a fuentes de datos legítimas, aunque sean más caras que las alternativas pirateadas.

La economía del entrenamiento de IA: cómo cambiará la industria la concesión de licencias

El acuerdo de Anthropic altera fundamentalmente la economía del entrenamiento de modelos de lenguaje grandes. Anteriormente, las empresas podían acceder a enormes cantidades de datos de entrenamiento de forma gratuita utilizando fuentes pirateadas. Esto les daba una ventaja significativa en costes frente a las empresas que licenciaban contenido legítimamente. El acuerdo elimina esta ventaja al establecer que las fuentes pirateadas no son una opción viable. En adelante, las empresas de IA tendrán que licenciar contenido, lo que aumentará significativamente el coste de entrenar modelos.

Considera la escala de datos necesaria para entrenar un modelo de lenguaje grande. Modelos como Claude, GPT-4 y otros se entrenan con cientos de miles de millones de tokens de texto. Si las empresas deben licenciar estos datos en lugar de acceder a ellos gratuitamente, los costes de licencia podrían fácilmente alcanzar cientos de millones o incluso miles de millones de dólares. Esto cambiará fundamentalmente el panorama competitivo. Las empresas bien capitalizadas con acceso a grandes fondos podrán asumir los costes de licencia, mientras que las startups más pequeñas pueden tener dificultades para competir. Esto podría conducir a una consolidación en la industria de la IA, con un número menor de grandes empresas dominando el mercado.

El acuerdo también aumentará el valor del contenido licenciado. Editoriales, medios de comunicación y creadores de contenido verán que su propiedad intelectual está ahora muy demandada por las empresas de IA. Esto crea oportunidades para negocios de concesión de licencias de contenido y puede dar lugar a nuevos modelos de negocio donde los creadores puedan monetizar su trabajo licenciándolo a empresas de IA. Es posible que veamos el surgimiento de plataformas especializadas de licencias de datos que agreguen contenido de múltiples fuentes y lo licencien a empresas de IA a gran escala. Esto representa un cambio importante en el funcionamiento de la economía creativa, con las empresas de IA convirtiéndose en importantes clientes para los creadores de contenido.

El aumento del coste de entrenar modelos probablemente se trasladará a los consumidores a través de precios más altos para los servicios de IA. Si licenciar los datos de entrenamiento cuesta miles de millones de dólares, las empresas deberán recuperar estos costes a través de sus productos y servicios. Esto podría llevar a precios más altos para herramientas y servicios de IA, ralentizando potencialmente la adopción y cambiando la dinámica competitiva del mercado de IA. Alternativamente, las empresas podrían centrarse en métodos de entrenamiento más eficientes o en el uso de conjuntos de datos más pequeños y especializados que sean menos costosos de licenciar. Esto podría dar lugar a un cambio de modelos generales masivos hacia modelos más pequeños y específicos entrenados con conjuntos de datos concretos y de alta calidad.

Implicaciones para inversores: valorar el riesgo de derechos de autor

El acuerdo de Anthropic tiene importantes implicaciones para los inversores en empresas de IA. El acuerdo de 1.500 millones de dólares representa una responsabilidad financiera sustancial que los inversores deben ahora considerar en sus valoraciones y evaluaciones de riesgo. La reciente ronda de financiación Serie F de 13.000 millones de dólares de Anthropic se realizó con pleno conocimiento de este acuerdo, lo que sugiere que los inversores ya han tenido en cuenta esta responsabilidad. Sin embargo, el acuerdo plantea preguntas más generales sobre el riesgo de derechos de autor en toda la industria de la IA.

Los inversores deben ahora realizar una diligencia debida más exhaustiva sobre las prácticas de datos de las empresas de IA en las que piensan invertir. Deben entender de dónde provienen los datos de entrenamiento, si están debidamente licenciados y cuál es la exposición de la empresa a litigios por derechos de autor. Esto aumenta el coste y la complejidad de las inversiones en IA, ya que los inversores deben contratar expertos legales para revisar las prácticas de datos y evaluar el riesgo de derechos de autor. Las empresas que puedan demostrar prácticas claras, documentadas y legalmente cumplidas en la adquisición de datos tendrán una ventaja competitiva en la obtención de fondos, ya que presentan menor riesgo para los inversores.

El acuerdo también afecta la valoración de las empresas de IA. Si los litigios y acuerdos por derechos de autor son ahora un coste previsible de hacer negocios en la IA, los inversores descontarán las valoraciones en consecuencia. Una empresa que ya haya resuelto sus reclamaciones por derechos de autor podría ser vista incluso con mejores ojos que una que aún no haya enfrentado litigios, porque la responsabilidad es conocida y cuantificada. Por el contrario, las empresas con prácticas de datos dudosas pueden enfrentar descuentos de valoración significativos o dificultades para recaudar capital.

Además, el acuerdo crea presión sobre las empresas de IA para recurrir a fuentes de datos licenciadas, lo que aumenta sus costes operativos. Esto reducirá los márgenes de beneficio y dificultará la rentabilidad. Los inversores deberán ajustar sus modelos financieros para tener en cuenta mayores costes de adquisición de datos, lo que afectará sus expectativas de retorno. Algunos inversores pueden decidir que el mercado de IA es menos atractivo de lo que pensaban, dados estos mayores costes y riesgos. Esto podría ralentizar la financiación de la IA y dar lugar a estrategias de inversión más conservadoras.

El acuerdo de Anthropic se produce en el contexto de preguntas más amplias sobre cómo debe aplicarse la ley de derechos de autor a la inteligencia artificial. El caso establece precedentes importantes sobre el uso legítimo, pero también plantea preguntas aún sin resolver. Por ejemplo, ¿qué ocurre con las empresas que utilizan material protegido de fuentes legítimas pero no lo licencian explícitamente para entrenamiento de IA? ¿Y con las empresas que utilizan material disponible públicamente que puede incluir obras protegidas? Es probable que estas preguntas se aborden en futuros litigios y legislación.

El acuerdo también pone de relieve la tensión entre la protección de los derechos de autor y la innovación. La ley de derechos de autor está diseñada para incentivar la creación dando a los creadores derechos exclusivos sobre su obra. Sin embargo, algunos argumentan que una aplicación demasiado estricta podría obstaculizar la innovación en la IA y otros campos. El caso de Anthropic sugiere que los tribunales están dispuestos a hacer cumplir los derechos de autor estrictamente, incluso si esto ralentiza el desarrollo de la IA. Esto plantea preguntas sobre si la ley de derechos de autor necesita actualizarse para abordar los desafíos únicos que plantea el entrenamiento de IA.

Los legisladores están empezando a abordar estas cuestiones. Algunos han propuesto nuevas leyes que abordarían explícitamente los derechos de autor y la IA, creando potencialmente espacios seguros para ciertos tipos de entrenamiento de IA o estableciendo nuevos marcos de licencias. La Ley de IA de la Unión Europea incluye disposiciones relacionadas con los derechos de autor y el uso de datos. En Estados Unidos, se han propuesto leyes que aclararían el estatus de los derechos de autor en el entrenamiento de IA y establecerían nuevos mecanismos de licencia. El acuerdo de Anthropic probablemente influirá en estas discusiones legislativas, a medida que los responsables políticos consideren cómo equilibrar la protección de los derechos de autor con la innovación en IA.

Qué significa esto para los consumidores y el futuro de la IA

En última instancia, el acuerdo de Anthropic afectará a los consumidores de servicios de IA. A medida que las empresas de IA enfrenten mayores costes por datos de entrenamiento y mayor exposición legal, es probable que estos costes se trasladen a los consumidores a través de precios más altos para los servicios de IA. Los usuarios de Claude, ChatGPT y otras herramientas de IA pueden ver aumentos de precios a medida que las empresas buscan recuperar sus mayores costes de adquisición de datos y legales. Esto podría ralentizar la adopción de servicios de IA y cambiar la dinámica competitiva del mercado.

El acuerdo también plantea preguntas importantes sobre el futuro del desarrollo de la IA. Si la aplicación de los derechos de autor se vuelve más estricta y la adquisición de datos más costosa, ¿podrán las empresas de IA seguir entrenando modelos tan grandes y capaces como los actuales? ¿O tendrán que orientarse hacia modelos más pequeños y especializados entrenados con conjuntos de datos específicos y de alta calidad? Estas cuestiones darán forma a la trayectoria del desarrollo de la IA en los próximos años.

En un sentido más amplio, el acuerdo indica que la era del “muévete rápido y rompe cosas” en la IA está terminando. Las empresas ya no pueden ignorar la ley de derechos de autor y asumir que solo enfrentarán consecuencias menores. El entorno legal y regulatorio para la IA es cada vez más complejo y estricto. Las empresas que quieran tener éxito en este entorno deberán priorizar el cumplimiento, la transparencia y las prácticas éticas. Esto representa una maduración de la industria de la IA, pasando de un enfoque exclusivamente técnico hacia un enfoque más integral que incluya consideraciones legales, éticas y de cumplimiento.

Potencia tu flujo de trabajo con FlowHunt

Descubre cómo FlowHunt automatiza tus flujos de contenido y SEO con IA: desde la investigación y generación hasta la publicación y analítica, todo en un solo lugar. Asegura el cumplimiento y gestiona la gobernanza de datos con confianza.

La comparación con Google Books: Por qué el enfoque de Anthropic fracasó donde Google tuvo éxito

Para entender por qué el enfoque de Anthropic para la adquisición de datos fue problemático, es instructivo compararlo con el proyecto Google Books, que enfrentó desafíos de derechos de autor similares pero finalmente tuvo éxito legalmente. Google Books fue un proyecto ambicioso en el que Google compró copias usadas de libros, los escaneó y los puso a disposición en línea. Aunque Google Books también enfrentó litigios por derechos de autor, el proyecto finalmente se consideró uso justo porque Google tomó medidas para adquirir los libros legítimamente en lugar de descargarlos de fuentes piratas.

La diferencia clave entre Google Books y el enfoque de Anthropic radica en la fuente del material y la intención de la empresa. Google compró copias físicas de libros, lo que significaba que estaba compensando al mercado de libros usados y no infringiendo directamente los derechos de distribución de los editores. Anthropic, por el contrario, descargó copias digitales pirateadas sin ninguna compensación a los titulares de derechos de autor. Google también implementó medidas tecnológicas para evitar la reproducción de libros completos, limitando lo que los usuarios podían ver y descargar. Anthropic, mientras tanto, incorporó libros completos en sus datos de entrenamiento sin tales limitaciones.

Además, el uso de Google de los libros escaneados fue principalmente para fines de indexación y búsqueda, lo que los tribunales consideraron transformador y beneficioso para el público. El uso de Anthropic fue explícitamente comercial: entrenar un modelo que se vendería a los clientes. Si bien ambas empresas se beneficiaron de sus respectivos proyectos, el beneficio de Google fue más indirecto (a través del aumento del tráfico de búsqueda y los ingresos publicitarios), mientras que el beneficio de Anthropic fue directo (a través de las ventas de Claude). Estas distinciones importaron al tribunal y ayudan a explicar por qué el enfoque de Google se consideró uso justo mientras que el de Anthropic no lo fue.

La comparación con Google Books también ilustra un principio importante: las empresas pueden participar en proyectos de adquisición de datos a gran escala legalmente si toman las medidas adecuadas. Google no necesitaba usar fuentes piratas; eligieron comprar libros legítimamente, lo que fue más caro pero finalmente defendible legalmente. Anthropic podría haber hecho lo mismo: podrían haber licenciado libros de editores o comprarlos legítimamente. El hecho de que eligieran la ruta más barata de usar fuentes piratas, sabiendo que era ilegal, es lo que finalmente llevó a su acuerdo masivo.

Conclusión

El acuerdo de derechos de autor de Anthropic representa un momento decisivo para la industria de la inteligencia artificial. Con $1.5 mil millones, es el acuerdo de derechos de autor más grande de la historia, y establece un precedente legal claro de que las empresas de IA no pueden usar material pirata para entrenar sus modelos y reclamar protección de uso justo. Anthropic descargó deliberadamente más de 500,000 libros de fuentes ilegales como Library Genesis para entrenar a Claude, creyendo que esta práctica estaba dentro de las protecciones de uso justo. El tribunal rechazó completamente este argumento, dictaminando que el uso de Anthropic era “inherente e irremediablemente infractor”. El acuerdo obligará a las empresas de IA a cambiar hacia fuentes de datos con licencia, aumentando significativamente el costo de entrenar modelos y remodelando la economía del desarrollo de IA. Esto probablemente conducirá a precios más altos para los servicios de IA, consolidación en la industria de IA y mayor inversión en infraestructura de cumplimiento y gobernanza de datos. Para los inversores, el acuerdo señala que el riesgo de derechos de autor es ahora un factor material en las valoraciones de empresas de IA. Para los consumidores, significa que la era de servicios de IA baratos y fácilmente disponibles puede estar terminando a medida que las empresas trasladan los mayores costos de adquisición de datos a los usuarios. El acuerdo también establece un precedente legal importante que influirá en otros casos de derechos de autor en curso contra empresas de IA, incluida la demanda del New York Times contra OpenAI. En última instancia, el acuerdo de Anthropic marca el final de la era “muévete rápido y rompe cosas” en la IA y el comienzo de una industria más madura, legalmente conforme y éticamente consciente.

Preguntas frecuentes

¿De qué trata el acuerdo de derechos de autor de Anthropic?

Anthropic, la empresa detrás de Claude AI, enfrenta un acuerdo de 1.500 millones de dólares por descargar y utilizar libros pirateados de sitios como Library Genesis para entrenar sus modelos de IA sin permiso. El tribunal dictaminó que esto no fue uso legítimo, convirtiéndose en el acuerdo de derechos de autor más grande de la historia.

¿Anthropic infringió intencionadamente los derechos de autor?

Sí, Anthropic descargó intencionadamente libros pirateados de fuentes ilegales, pero creían que su uso calificaba como uso legítimo bajo la ley de derechos de autor. El tribunal no estuvo de acuerdo y dictaminó que su uso era 'inherentemente e irremediablemente infractor', sin una defensa legítima de uso legítimo.

¿Qué significa este acuerdo para otras empresas de IA?

Este acuerdo marca un precedente importante de que las empresas de IA no pueden utilizar fuentes de datos pirateadas para entrenar modelos y alegar uso legítimo. Otras empresas como OpenAI (que está siendo demandada por el New York Times) probablemente enfrentarán desafíos legales similares, obligando a la industria a adoptar fuentes de datos licenciadas y pagar por los derechos de contenido.

¿Tendrá Anthropic que destruir Claude?

No, Anthropic no tiene que destruir ni volver a entrenar Claude. Sin embargo, deben destruir los archivos de libros pirateados dentro de los 30 días posteriores al fallo final. El acuerdo restringe el uso futuro de material pirateado e incluye disposiciones para reclamaciones de salida si Claude reproduce texto protegido por derechos de autor de manera literal.

¿Cómo afectará esto a los precios de los modelos de IA?

A medida que las empresas de IA recurran a fuentes de datos licenciadas y deban pagar por los derechos de contenido, el coste de entrenar modelos aumentará significativamente. Esto probablemente conducirá a precios más altos para los servicios de IA y un mayor valor para los proveedores de contenido licenciado como medios de comunicación, editoriales y plataformas de contenido generado por usuarios.

Arshia es ingeniera de flujos de trabajo de IA en FlowHunt. Con formación en ciencias de la computación y una pasión por la IA, se especializa en crear flujos de trabajo eficientes que integran herramientas de IA en las tareas cotidianas, mejorando la productividad y la creatividad.

Arshia Kahani
Arshia Kahani
Ingeniera de flujos de trabajo de IA

Automatiza tus flujos de trabajo de IA cumpliendo la normativa

FlowHunt te ayuda a gestionar la generación de contenido y los flujos de datos de IA, asegurando el cumplimiento de los requisitos legales y de derechos de autor.

Saber más

La batalla por la cláusula AGI entre OpenAI y Microsoft
La batalla por la cláusula AGI entre OpenAI y Microsoft

La batalla por la cláusula AGI entre OpenAI y Microsoft

OpenAI y Microsoft están enfrascados en una batalla de alto riesgo por la cláusula AGI en su acuerdo de colaboración. Esta disposición polémica podría limitar e...

8 min de lectura
OpenAI Microsoft +8