Anthropic’s schikking van $1,5 miljard verandert AI voorgoed

Anthropic’s schikking van $1,5 miljard verandert AI voorgoed

AI Copyright Legal Regulation

Inleiding

De kunstmatige intelligentiesector heeft zojuist een aardverschuiving meegemaakt. Anthropic, het bedrijf achter Claude, een van de meest geavanceerde AI-assistenten van dit moment, krijgt te maken met een baanbrekende auteursrechtenschikking van $1,5 miljard—de grootste in de geschiedenis. Dit is geen klein juridisch probleem of een routineuze schikking; het is een fundamentele confrontatie met de manier waarop AI-bedrijven trainingsdata verzamelen en roept kritische vragen op over de toekomst van AI-ontwikkeling. De schikking onthult dat Anthropic bewust illegale boeken van bronnen als Library Genesis heeft gedownload om hun modellen te trainen, in de veronderstelling dat deze praktijk onder de bescherming van fair use viel. De rechter wees dit argument resoluut af en oordeelde dat het gebruik door Anthropic “inherently and irredeemably infringing” was. Deze beslissing zal in de hele AI-sector weerklinken, bedrijven dwingen hun data-acquisitiestrategieën te heroverwegen en mogelijk de economie van het bouwen van basismodellen herstructureren. Inzicht in deze schikking is essentieel voor iedereen die geïnteresseerd is in AI, auteursrecht, bedrijfsstrategie of de toekomst van technologie.

Thumbnail for De Anthropic Auteursrechtenschikking Uitgelegd

Wat is auteursrechtschending in de context van AI-training?

Auteursrechtschending vindt plaats wanneer iemand creatief werk zonder toestemming gebruikt op een manier die de exclusieve rechten van de auteursrechthebbende schendt. In traditionele contexten betekent dit bijvoorbeeld het kopiëren van een liedje, het reproduceren van een boek of het verspreiden van een film zonder toestemming. De toepassing van het auteursrecht op trainingsdata voor kunstmatige intelligentie brengt echter nieuwe en complexe uitdagingen met zich mee, waarmee rechters zich nu pas grondig bezighouden. Bij het trainen van AI-modellen zijn enorme datasets nodig met tekst, afbeeldingen, code en andere creatieve werken. In het verleden voerden sommige bedrijven aan dat het gebruik van auteursrechtelijk beschermd materiaal voor trainingsdoeleinden onder “fair use” viel—een juridische doctrine die beperkt gebruik van beschermde werken zonder toestemming toestaat voor doeleinden als kritiek, commentaar, onderwijs of onderzoek. De zaak tegen Anthropic vormt een fundamentele uitdaging voor deze interpretatie door te stellen dat het downloaden van illegale boeken om commerciële AI-modellen te trainen geen fair use is, ongeacht de intenties van het bedrijf of het transformerende karakter van het model.

Het verschil tussen legitieme data-acquisitie en auteursrechtschending hangt af van verschillende factoren. Ten eerste is de bron van de data van groot belang. Als een bedrijf boeken koopt, content licentieert of publiek beschikbare data met juiste bronvermelding gebruikt, opereert het binnen de wettelijke grenzen. Als het echter bewust materiaal van illegale, piratenwebsites haalt—sites die auteursrechtelijk beschermd werk onwettig verspreiden—dan is er sprake van schending. Ten tweede speelt het doel en het karakter van het gebruik een rol in de fair use-analyse. Hoewel het trainen van een AI-model transformerend lijkt, oordeelde de rechter in de zaak tegen Anthropic dat het gebruik van illegaal materiaal voor commerciële doeleinden om een winstgevend product te ontwikkelen wezenlijk verschilt van educatief of onderzoeksmatig gebruik. Ten derde is het effect op de markt voor het oorspronkelijke werk van belang. Door Claude te trainen op illegale boeken zonder auteurs of uitgevers te compenseren, verminderde Anthropic mogelijk de marktwaarde van die werken en de prikkel om legitieme licenties af te sluiten. Deze factoren samen maakten het verweer van Anthropic op basis van fair use kansloos.

Waarom fair use-argumenten voor Anthropic faalden

Het fair use-concept vormt al decennia een hoeksteen van het auteursrecht, bedoeld om het recht van makers te balanceren met het publiek belang om toegang te krijgen tot en voort te bouwen op creatieve werken. Fair use staat beperkt reproductie van beschermde werken toe voor onder meer kritiek, commentaar, nieuws, onderwijs, wetenschap en onderzoek. Veel AI-bedrijven, waaronder Anthropic, dachten aanvankelijk dat het trainen van AI-modellen op auteursrechtelijk beschermd materiaal onder deze beschermde categorie viel, zeker als het resulterende model het oorspronkelijke werk niet letterlijk reproduceerde. De analyse van de rechter in de Anthropic-schikking laat echter zien waarom dit argument in de context van bewust gebruikt illegaal materiaal niet opgaat.

De rechter paste de viervoudige fair use-test toe zoals vastgesteld in het auteursrecht. De eerste factor is het doel en karakter van het gebruik. AI-training lijkt transformerend—tekst wordt omgezet in wiskundige representaties en modelgewichten—maar de rechter benadrukte dat het gebruik door Anthropic expliciet commercieel was. Anthropic deed geen academisch onderzoek of maakte geen educatief materiaal; het bouwde een commercieel product om inkomsten te genereren. De tweede factor is de aard van het beschermde werk. Boeken, zeker gepubliceerde werken, genieten sterke auteursrechtbescherming vanwege de creatieve en economische investering. De derde factor analyseert hoeveel van het oorspronkelijke werk is gebruikt. Anthropic gebruikte niet slechts fragmenten, maar downloadde complete boeken van illegale bronnen en integreerde die volledig in hun trainingsdata. De vierde, vaak doorslaggevende factor is het effect op de markt voor het oorspronkelijke werk. Door illegale boeken zonder compensatie te gebruiken, verminderde Anthropic de prikkel voor legitieme licenties en potentieel de marktwaarde van die werken.

Wat de zaak van Anthropic extra ernstig maakte, was het opzettelijke karakter van hun handelen. Het was geen toevallige schending of een grijs gebied waarin het bedrijf redelijkerwijs dacht legaal te werken. Intern bewijs liet zien dat Anthropic bewust materiaal van illegale websites haalde, wetende dat deze bronnen onwettig waren. Zij maakten een bewuste zakelijke keuze om gratis, illegaal materiaal te gebruiken in plaats van content legaal te licentiëren. Deze opzet versterkte de zaak tegen hen en verklaart de harde bewoordingen van de rechter, die sprak van “inherently and irredeemably infringing”. De schikking maakt in essentie duidelijk dat geen enkele vorm van transformerend gebruik het fundamentele probleem van opzettelijk gebruik van illegaal materiaal voor commerciële doeleinden kan rechtvaardigen.

De schaal van Anthropic’s data-acquisitie: meer dan 500.000 boeken

Om de omvang van de auteursrechtschending van Anthropic te begrijpen, moet je het enorme bereik van hun data-acquisitie zien. Uit de schikkingsdocumenten blijkt dat Anthropic meer dan 500.000 boeken van illegale bronnen heeft gedownload om hun Claude-modellen te trainen. Dit is geen klein foutje of incidentele opname van beschermd materiaal; het was een systematische, grootschalige poging om trainingsdata op te bouwen met illegaal verkregen materiaal. Het getal 500.000 is verbluffend als je bedenkt dat elk boek staat voor creatief werk, intellectueel eigendom en economische waarde. Het ging hierbij niet om vergeten boeken, maar vaak om actuele, commercieel waardevolle titels van toonaangevende uitgevers en auteurs die afhankelijk zijn van de verkoop van hun boeken.

Het onderzoek naar deze schending was op zich al bijzonder. Eiser voerde 20 getuigenverhoren, bekeek honderdduizenden pagina’s aan documenten en onderzocht minstens drie terabyte aan trainingsdata. Dit was niet slechts het vinden van enkele illegale bestanden; het vergde diepgaand forensisch onderzoek om de datasets van Anthropic te herleiden tot hun illegale bron. Metadatanalyse was hierin doorslaggevend—door digitale vingerafdrukken en kenmerken van de data te onderzoeken, konden onderzoekers de trainingsdata van Anthropic definitief koppelen aan illegale repositories als Library Genesis en Pirate Library Mirror. Dit technische bewijs maakte het voor Anthropic onmogelijk te beweren dat ze niet wisten waar hun data vandaan kwam.

De schikking weerspiegelt de omvang van de schending door haar getrapte betalingsstructuur. De basisbedrag van $1,5 miljard is het minimum, berekend op basis van de 500.000 bevestigde werken. Maar de schikking bevat een belangrijke bepaling: als de definitieve lijst van werken boven de 500.000 komt, moet Anthropic $3.000 extra per werk betalen. Dus als uiteindelijk 600.000 schendende werken worden geïdentificeerd, moet Anthropic $300 miljoen extra betalen. Deze structuur stimuleert grondig onderzoek en zorgt ervoor dat het schikkingsbedrag de ware omvang van de schending weerspiegelt. De rente, die kan oplopen tot meer dan $126 miljoen tegen de tijd van de laatste betaling, verhoogt de totale kosten van Anthropic’s handelen verder.

De opbouw van de schikking: Hoe Anthropic moet betalen

De financiële structuur van de Anthropic-schikking laat zien dat de rechter serieuze consequenties wilde opleggen, maar ook oog had voor het voortbestaan van het bedrijf. De schikking wordt niet in één keer betaald, maar uitgesmeerd over meerdere termijnen met vaste deadlines en renteopbouw. Dit heeft meerdere doelen: het zorgt dat Anthropic daadwerkelijk kan betalen zonder direct failliet te gaan, het compenseert de eisers voor het tijdsverloop door rente, en het creëert een blijvende financiële druk die de ernst van het oordeel onderstreept.

De betalingsregeling start met $300 miljoen, te voldoen binnen vijf werkdagen na de voorlopige goedkeuring door de rechter. Dit bedrag toont de inzet van Anthropic en biedt directe compensatie aan de eiser. Nog eens $300 miljoen volgt binnen vijf werkdagen na de definitieve goedkeuring. De resterende betalingen worden over een langere periode gespreid: $450 miljoen plus rente binnen 12 maanden na voorlopige goedkeuring, nog eens $450 miljoen plus rente binnen 24 maanden. Het rentecomponent is aanzienlijk—tegen de tijd dat Anthropic de laatste betaling doet, kan de rente oplopen tot ongeveer $126,4 miljoen, waardoor de totale schikking boven $1,6 miljard uitkomt.

Ter vergelijking: de schikking bedraagt vier keer het wettelijk schadebedrag ($750 per werk) dat een jury had kunnen toekennen en vijftien keer het bedrag ($200 per werk) als Anthropic onschuldig gebruik had kunnen aantonen. Deze multiplier weerspiegelt dat de rechter het handelen van Anthropic als opzettelijk en weloverwogen zag, niet als een vergissing. De schikking komt bovendien vlak na een Series F-investeringsronde van $13 miljard tegen een waardering van $183 miljard na geld, waardoor het bedrag neerkomt op ongeveer 11,5% van de recente financiering—een risico dat investeerders blijkbaar hebben meegewogen. Dit suggereert dat grote investeerders in AI dit soort juridische risico’s als een vast onderdeel van zakendoen in deze sector zijn gaan zien.

FlowHunt’s visie: Compliance in AI-workflows beheren

Nu AI-bedrijven zich in een steeds complexer juridisch en regelgevend landschap begeven, wordt compliant workflowmanagement belangrijker dan ooit. FlowHunt erkent dat de Anthropic-schikking een keerpunt voor de sector betekent, die vraagt om nieuwe benaderingen van databeheer, contentacquisitie en modeltrainingspraktijken. Organisaties die AI-systemen ontwikkelen, moeten nu strikte processen invoeren om te zorgen dat alle trainingsdata legaal is verkregen, correct is gelicentieerd en goed wordt gedocumenteerd.

De schikking creëert onmiddellijke praktische uitdagingen voor AI-bedrijven. Ze moeten hun bestaande datasets auditen op illegale of ongeautoriseerde content, nieuwe acquisitieprocessen implementeren waarbij gelicentieerde bronnen voorrang krijgen, en gedetailleerde documentatie over herkomst en licenties bijhouden. De automatiseringsmogelijkheden van FlowHunt kunnen deze compliance-workflows stroomlijnen door systematische processen in te stellen voor datavalidatie, bronverificatie en licentiedocumentatie. In plaats van te vertrouwen op handmatige, foutgevoelige controles, kunnen organisaties geautomatiseerde workflows inzetten die databronnen checken op bekende illegale repositories, licentieovereenkomsten verifiëren en potentiële complianceproblemen signaleren voordat ze juridisch worden.

Verder stelt FlowHunt organisaties in staat om transparante audittrails te bouwen voor hun AI-trainingsprocessen. Wanneer toezichthouders, investeerders of juridische teams willen weten hoe een model is getraind en waar de data vandaan komt, is uitgebreide documentatie essentieel. Door het automatiseren van documentatie en tracking van databronnen, licenties en compliancechecks, helpt FlowHunt organisaties om aan te tonen dat zij redelijke stappen nemen voor juridische naleving. Deze proactieve aanpak beperkt niet alleen het juridische risico, maar versterkt ook het vertrouwen bij stakeholders die steeds meer waarde hechten aan de ethische en juridische basis van AI-systemen.

De bredere gevolgen: hoe deze schikking AI-ontwikkeling verandert

De Anthropic-schikking is veel meer dan een individueel juridisch probleem; het markeert een fundamentele verschuiving in hoe de AI-sector voortaan zal opereren. Dit precedent zal van invloed zijn op hoe andere AI-bedrijven data-acquisitie aanpakken, hoe investeerders AI-startups beoordelen en hoe toezichthouders naar auteursrechtbescherming in het AI-tijdperk kijken. De schikking maakt duidelijk dat de “move fast and break things”-mentaliteit van de vroege AI-ontwikkeling onhoudbaar is als het om auteursrecht gaat.

Ten eerste versnelt de schikking de overgang van illegale bronnen naar gelicentieerde content. Bedrijven als OpenAI, Google, Meta en anderen die mogelijk vergelijkbare acquisitiestrategieën hanteerden, lopen nu duidelijk juridisch risico. The New York Times klaagt OpenAI momenteel aan wegens vergelijkbare auteursrechtschending, en deze Anthropic-schikking zal waarschijnlijk die zaak en andere beïnvloeden. We zullen daardoor een toenemende vraag zien naar gelicentieerde datasets, waardoor de prijzen voor waardevolle content stijgen. Uitgevers, nieuwsorganisaties en contentmakers zullen merken dat hun intellectueel eigendom steeds waardevoller wordt nu AI-bedrijven om legitieme bronnen concurreren. Dit zorgt voor een marktdynamiekverschuiving—in plaats van gratis toegang tot illegaal materiaal, zullen AI-bedrijven nu licentieovereenkomsten moeten sluiten en betalen voor contentrechten.

Ten tweede zullen de kosten voor het trainen van basismodellen stijgen. Als bedrijven content moeten licentiëren in plaats van illegale bronnen te gebruiken, verandert de economie van AI-ontwikkeling drastisch. Het trainen van een groot taalmodel vraagt enorme hoeveelheden data, en licenties op die schaal zijn duur. Deze kostenstijging zal waarschijnlijk worden doorberekend aan de klant via hogere prijzen voor AI-diensten, of de winstgevendheid van AI-bedrijven beperken. Kleinere startups die niet het kapitaal hebben om op grote schaal datasets te licentiëren, zullen het moeilijk krijgen om te concurreren met goed gefinancierde bedrijven. Dit kan leiden tot consolidatie in de sector, waarbij een klein aantal kapitaalkrachtige bedrijven de markt domineert.

Ten derde stimuleert de schikking investeringen in databeheer en compliance-infrastructuur. AI-bedrijven zullen robuuste systemen moeten implementeren voor het bijhouden van dataherkomst, het verifiëren van licenties en het waarborgen van naleving van het auteursrecht. Dit opent kansen voor bedrijven die oplossingen bieden voor datamanagement, compliance en audit. Organisaties moeten investeren in tools en processen die niet alleen de technische, maar ook de juridische en ethische aspecten van AI-ontwikkeling beheersen. Dit betekent een volwassenwording van de AI-sector, waarin niet alleen modelprestaties, maar ook juridische, ethische en compliance-overwegingen zwaar wegen.

Hoe de schikking Anthropic’s toekomstig gebruik van illegaal materiaal beperkt

Hoewel het financiële deel van de schikking aanzienlijk is, zijn de beperkingen op Anthropic’s toekomstig gebruik van auteursrechtelijk beschermd materiaal mogelijk nog ingrijpender. De schikking omvat drie belangrijke beperkingen op de vrijwaring van aansprakelijkheid die Anthropic krijgt. Inzicht in deze beperkingen laat zien dat de schikking niet zomaar een financiële regeling is, maar een grondige herstructurering van Anthropic’s bedrijfsvoering.

Ten eerste geldt de vrijwaring alleen voor eerdere claims en expliciet niet voor toekomstige reproductie, distributie of het maken van afgeleide werken. Dit betekent dat als Anthropic in de toekomst weer illegaal materiaal gebruikt of soortgelijke auteursrechtschendingen begaat, zij nieuwe rechtszaken en extra aansprakelijkheid riskeren. Er bestaat géén algemene immuniteit; de schikking dekt alleen de specifieke schendingen uit het verleden. Deze beperking zorgt ervoor dat Anthropic blijvend risico loopt als ze hun datapraktijken niet fundamenteel veranderen.

Ten tweede heeft de schikking geen betrekking op outputclaims. Dit is vooral belangrijk, maar wordt vaak over het hoofd gezien. Hoewel Anthropic Claude trainde op illegale boeken, verhindert de schikking niet dat rechthebbenden kunnen procederen als Claude’s antwoorden auteursrechtelijk beschermde tekst vrijwel letterlijk reproduceren. Als een gebruiker Claude vraagt iets te schrijven en Claude produceert tekst die sterk overeenkomt met passages uit een van de gebruikte boeken, kan de rechthebbende Anthropic alsnog aanklagen. Dit creëert een blijvend aansprakelijkheidsrisico dat verder reikt dan alleen de trainingsfase.

Ten derde geldt de vrijwaring alleen voor werken die op de specifieke werkenlijst staan. Als een rechthebbende meerdere werken bezit en slechts één daarvan op de lijst voorkomt, behoudt hij het recht om voor de andere werken te procederen. De schikking is dus nauw toegespitst op de boeken die tijdens het onderzoek werden geïdentificeerd. Mochten later meer illegale boeken ontdekt worden, kunnen de rechthebbenden daarvan alsnog een claim indienen. Dit stimuleert grondig onderzoek en voorkomt dat Anthropic de schikking als schild tegen alle auteursrechtclaims gebruikt.

De verplichting tot datavernietiging: toekomstige misstanden voorkomen

Een van de belangrijkste praktische eisen van de schikking is dat Anthropic alle illegale boekbestanden binnen 30 dagen na het definitieve vonnis moet vernietigen. Dit dient meerdere doelen: het voorkomt dat Anthropic het illegale materiaal blijft gebruiken, toont de ernst van de rechtbank om de schending te stoppen en stelt een duidelijke, verifieerbare deadline voor naleving. De vernietigingsplicht onderstreept echter ook een belangrijk nadeel van auteursrechtelijke remedies in de AI-context.

Anthropic moet de illegale bestanden vernietigen, maar hoeft Claude niet te vernietigen of opnieuw te trainen. Dit verschil is cruciaal, want het opnieuw trainen van een groot taalmodel zou buitengewoon duur en tijdrovend zijn, mogelijk miljarden kosten en maanden aan rekencapaciteit vragen. Anthropic dwingen Claude te vernietigen zou het bedrijf feitelijk uitschakelen—iets wat de rechter blijkbaar te ver vond gaan. De schikking focust daarom op het voorkomen van toekomstig misbruik van het illegale materiaal, terwijl Anthropic door mag gaan met het model dat al getraind is.

Dit levert een interessante juridische en ethische situatie op. Claude is immers getraind op illegale boeken en die kennis is nu in de modelgewichten en parameters opgeslagen. Je kunt een model niet zomaar “untrainen” van een specifiek deel van zijn trainingsdata. De kennis uit die boeken blijft dus onderdeel van Claude’s capaciteiten. Maar de schikking voorkomt dat Anthropic diezelfde illegale bestanden opnieuw gebruikt om nieuwe modellen te trainen of het oorspronkelijke materiaal te blijven raadplegen. Dit is een pragmatisch compromis tussen Anthropic verantwoordelijk houden en voorkomen dat het bedrijf volledig ten onder gaat.

De vernietigingseis stelt ook compliance-uitdagingen. Anthropic moet aantonen dat alle kopieën van de illegale bestanden zijn vernietigd en dat er geen back-ups of secundaire kopieën meer zijn. Dit vereist uitgebreid datamanagement en mogelijk controle door derden. De schikking bevat vermoedelijk bepalingen voor audit en verificatie, zodat Anthropic niet simpelweg kan claimen dat zij aan de eis voldoen terwijl er toch nog kopieën bestaan.

Wie wordt uitbetaald: de verdeling van de schikkingsgelden

De schikkingsgelden worden uitgekeerd aan “alle feitelijke of juridische auteursrechthebbenden met het exclusieve recht om kopieën van het boek te reproduceren in de versies van LibGen of Palei die door Anthropic zijn gedownload.” Dit betekent dat het geld naar de rechthebbenden gaat—de auteurs, uitgevers en andere rechtenhouders—en niet naar een algemeen fonds of de overheid. Het verdelingsproces zal vermoedelijk complex zijn, omdat alle rechthebbenden van de 500.000+ boeken geïdentificeerd moeten worden en passende compensatie per boek moet worden vastgesteld.

Waarschijnlijk komt er een claimsproces waarbij rechthebbenden documentatie moeten aanleveren die hun eigendom van specifieke werken aantoont. Dit kan jaren duren, omdat beheerders duizenden of zelfs miljoenen claims moeten verwerken. Sommige rechthebbenden zijn makkelijk te vinden—grote uitgevers met duidelijke registratie. Andere zijn lastiger, bijvoorbeeld bij oudere werken, zelfpublicaties of als het recht meerdere keren is overgedragen. De schikking zal moeten bepalen wat er met niet-geclaimde gelden gebeurt en hoe om te gaan met rechthebbenden die niet te traceren zijn.

Ook roept de verdeling vragen op over de waarde van verschillende werken. Moet een bestseller evenveel krijgen als een obscure academische tekst? Moet de vergoeding gebaseerd zijn op marktwaarde, het aantal keren dat het werk in training is gebruikt, of een andere maatstaf? De schikkingsdocumenten zullen hierover richtlijnen bevatten, al is de exacte formule mogelijk niet openbaar. Wel is duidelijk dat de schikking een substantiële financiële overdracht van Anthropic naar de creatieve sector betekent en erkent dat rechthebbenden vergoeding verdienen als hun werk wordt gebruikt om commerciële AI-modellen te trainen.

Het precedent: invloed op andere AI-bedrijven

De Anthropic-schikking zal in de hele AI-sector weerklank vinden en invloed hebben op hoe andere bedrijven data-acquisitie aanpakken en hun juridische risico inschatten. Verschillende andere grote AI-bedrijven voeren momenteel copyrightzaken en deze schikking zal hun zaken waarschijnlijk beïnvloeden. The New York Times klaagt OpenAI aan wegens auteursrechtschending, met vergelijkbare beschuldigingen van ongeoorloofd gebruik van beschermde content. De Anthropic-schikking maakt duidelijk dat rechters fair use-argumenten niet accepteren wanneer bedrijven bewust illegaal materiaal voor commerciële doeleinden gebruiken, wat de positie van The New York Times aanzienlijk versterkt.

Ook buiten lopende rechtszaken beïnvloedt de schikking de strategische keuzes van AI-bedrijven over data-acquisitie. Bedrijven die illegale of dubieuze databronnen gebruikten, zullen hun praktijken onder druk moeten auditen en mogelijk proactief schikken om grotere claims te voorkomen. Investeerders in AI-bedrijven zullen zekerheid eisen over de legale herkomst van trainingsdata en mogelijk garanties over dataherkomst vragen. Dit verhoogt de due diligence-eisen voor AI-investeringen en kan financieringsrondes vertragen omdat investeerders zorgvuldiger onderzoek doen naar datapraktijken.

De schikking schept ook een precedent voor schadeberekening. De $1,5 miljard voor 500.000 werken komt neer op ongeveer $3.000 per werk, aanzienlijk hoger dan de wettelijke schadevergoeding. Dit schept verwachtingen voor toekomstige schikkingen en uitspraken. Andere bedrijven die soortgelijke zaken krijgen, kunnen vergelijkbare schadebedragen verwachten, waardoor het financiële risico van auteursrechtschending glashelder wordt. Dit zal bedrijven ertoe aanzetten om alleen nog legitieme databronnen te gebruiken, ook al zijn die duurder dan illegale alternatieven.

De economie van AI-training: hoe licenties de sector veranderen

De Anthropic-schikking verandert fundamenteel de economie van het trainen van grote taalmodellen. Voorheen konden bedrijven gratis enorme hoeveelheden trainingsdata verzamelen uit illegale bronnen, wat hen een aanzienlijk kostenvoordeel gaf ten opzichte van bedrijven die content legaal licentieerden. De schikking neemt dit voordeel weg door te bepalen dat illegale databronnen geen optie meer zijn. Voortaan zullen AI-bedrijven content moeten licentiëren, wat de kosten voor het trainen van modellen aanzienlijk verhoogt.

Bedenk hoeveel data nodig is om een groot taalmodel te trainen. Modellen als Claude en GPT-4 worden getraind op honderden miljarden tokens aan tekstdata. Als bedrijven deze data moeten licentiëren in plaats van gratis te verzamelen, kunnen de licentiekosten makkelijk honderden miljoenen of zelfs miljarden dollar bedragen. Dit verandert het concurrentielandschap volledig. Goed gefinancierde bedrijven met veel kapitaal kunnen zich licenties permitteren; kleinere startups zullen het moeilijk krijgen. Dit kan leiden tot meer concentratie in de sector, waarbij een paar grote bedrijven domineren.

De schikking verhoogt ook de waarde van gelicentieerde content. Uitgevers, nieuwsorganisaties en contentmakers zullen merken dat hun intellectueel eigendom in trek is bij AI-bedrijven. Dit biedt kansen voor content-licentieplatforms en kan leiden tot nieuwe verdienmodellen waarbij makers hun werk aan AI-bedrijven kunnen licentiëren. Mogelijk ontstaan gespecialiseerde datalicentieplatforms die content van verschillende bronnen bundelen en op schaal aan AI-bedrijven aanbieden. Dit betekent een verschuiving in hoe de creatieve economie werkt, waarbij AI-bedrijven grote klanten worden voor contentmakers.

De hogere kosten voor het trainen van modellen zullen waarschijnlijk worden doorberekend aan de consument in de vorm van duurdere AI-diensten. Als het miljarden kost om trainingsdata te licentiëren, zullen bedrijven die kosten moeten terugverdienen via hun producten en diensten. Dit kan leiden tot hogere prijzen voor AI-tools en -diensten, mogelijk langzamere adoptie en veranderende concurrentieverhoudingen. Of bedrijven focussen op efficiëntere trainingsmethoden of kleiner, meer gespecialiseerd datagebruik dat goedkoper te licentiëren is. Dit kan een verschuiving veroorzaken van enorme generieke modellen naar kleinere, gerichte modellen getraind op specifieke, hoogwaardige datasets.

De Anthropic-schikking heeft grote implicaties voor investeerders in AI-bedrijven. De schikking van $1,5 miljard betekent een substantiële financiële verplichting die voortaan meegenomen moet worden in waarderingen en risicobeoordelingen. Anthropic’s recente Series F-investeringsronde van $13 miljard vond plaats met volledige kennis van deze schikking, wat suggereert dat investeerders deze aansprakelijkheid al hebben ingeprijsd. Toch roept de schikking bredere vragen op over copyright-risico in de hele sector.

Investeerders zullen nu grondiger due diligence moeten uitvoeren op de datapraktijken van AI-bedrijven waarin zij willen investeren. Zij moeten weten waar trainingsdata vandaan komt, of deze correct is gelicentieerd en wat de blootstelling aan copyrightzaken is. Dit maakt AI-investeringen duurder en ingewikkelder, want er zijn juridische experts nodig voor beoordeling van de datapraktijken en risico-inschatting. Bedrijven die hun data-acquisitie duidelijk en aantoonbaar legaal kunnen documenteren, hebben een concurrentievoordeel bij het ophalen van kapitaal.

De schikking beïnvloedt ook de waardering van AI-bedrijven. Als copyrightzaken en schikkingen een voorspelbare bedrijfslast zijn geworden, zullen investeerders de waarderingen daarop aanpassen. Een bedrijf dat zijn copyrightclaims al heeft geschikt, kan zelfs aantrekkelijker zijn dan een bedrijf dat nog geen zaak aan zijn broek heeft, omdat het risico dan bekend en gekwantificeerd is. Bedrijven met dubieuze datapraktijken krijgen mogelijk een lagere waardering of hebben moeite om financiering op te halen.

Verder dwingt de schikking AI-bedrijven om over te stappen op gelicentieerde databronnen, wat hun operationele kosten verhoogt. Dit drukt de marges en maakt het lastiger om winstgevend te worden. Investeerders zullen hun financiële modellen moeten aanpassen aan hogere data-acquisitiekosten, wat gevolgen heeft voor hun rendementsverwachtingen. Sommige investeerders zullen daardoor mogelijk voorzichtiger worden met AI, wat kan leiden tot minder snelle financieringsrondes en een meer conservatieve investeringsstrategie.

Het bredere juridische landschap: auteursrecht in het AI-tijdperk

De Anthropic-schikking vindt plaats te midden van bredere vragen over hoe het auteursrecht op kunstmatige intelligentie moet worden toegepast. De zaak zet belangrijke precedenten over fair use, maar roept ook nieuwe, nog onbeantwoorde vragen op. Bijvoorbeeld: wat als bedrijven auteursrechtelijk beschermd materiaal uit legitieme bronnen gebruiken zonder expliciete licentie voor AI-training? Wat als bedrijven publiek beschikbare data gebruiken waarin mogelijk beschermde werken zitten? Dit soort vragen zal waarschijnlijk in toekomstige rechtszaken en wetgeving worden behandeld.

De schikking onderstreept ook de spanning tussen auteursrechtbescherming en innovatie. Het auteursrecht is bedoeld om creatie te stimuleren door makers exclusieve rechten te geven. Sommigen beweren echter dat te strenge handhaving innovatie in AI en andere sectoren kan afremmen. De zaak rond Anthropic laat zien dat rechters bereid zijn auteursrecht strikt te handhaven, zelfs als dat de ontwikkeling van AI vertraagt. Dit roept vragen op of het auteursrecht aangepast moet worden aan de unieke uitdagingen van AI-training.

Wetgevers beginnen zich over deze vragen te buigen. Er zijn voorstellen voor nieuwe wetten die auteursrecht en AI expliciet behandelen, bijvoorbeeld door veilige havens voor bepaalde AI-training toe te staan of nieuwe licentiekaders te ontwikkelen. De Europese AI Act bevat bepalingen over auteursrecht en datagebruik. In de VS zijn er voorstellen om de status van AI-training in het auteursrecht te verduidelijken en nieuwe licentiemechanismen te creëren. De Anthropic-schikking zal waarschijnlijk invloed hebben op deze debatten nu beleidsmakers zoeken naar een balans tussen auteursrechtbescherming en AI-innovatie.

Wat dit betekent voor consumenten en de toekomst van AI

Uiteindelijk raakt de Anthropic-schikking ook gebruikers van AI-diensten. Nu AI-bedrijven hogere kosten krijgen voor trainingsdata en groter juridisch risico lopen, zullen deze kosten waarschijnlijk worden doorberekend aan consumenten in de vorm van hogere prijzen. Gebruikers van Claude, ChatGPT en andere AI-tools kunnen prijsstijgingen verwachten omdat bedrijven hun gestegen data- en juridische kosten proberen terug te verdienen. Dit kan de adoptie van AI-diensten vertragen en de concurrentieverhoudingen veranderen.

De schikking roept ook belangrijke vragen op over de toekomst van AI-ontwikkeling. Als auteursrechtstraining strenger wordt gehandhaafd en data-acquisitie duurder wordt, kunnen AI-bedrijven dan nog wel even grote en capabele modellen trainen als nu? Of moeten ze verschuiven naar kleinere, meer gespecialiseerde modellen getraind op specifieke, hoogwaardige datasets? Deze vragen zullen de koers van AI-ontwikkeling de komende jaren bepalen.

Breder gezien markeert de schikking het einde van het “move fast and break things”-tijdperk in AI. Bedrijven kunnen het auteursrecht niet langer negeren of denken dat de gevolgen wel meevallen. Het juridische en regelgevende landschap voor AI wordt steeds complexer en strenger. Wie wil slagen, zal compliance, transparantie en ethiek voorop moeten stellen. Dit betekent een volwassenwording van de sector: de focus verschuift van alleen technische innovatie naar een breder perspectief waarin juridische, ethische en compliance-aspecten net zo belangrijk zijn.

Versnel uw workflow met FlowHunt

Ervaar hoe FlowHunt uw AI-content- en SEO-workflows automatiseert — van onderzoek en contentcreatie tot publicatie en analyse — alles op één plek. Zorg voor compliance en beheer data governance met vertrouwen.

De vergelijking met Google Books: waarom Anthropic’s aanpak faalde en Google slaagde

Om te begrijpen waarom de data-acquisitie van Anthropic zo problematisch was, is het leerzaam om het te vergelijken met het Google Books-project, dat soortgelijke uitdagingen kende maar uiteindelijk juridisch slaagde. Google Books was een ambitieus project waarbij Google gebruikte boeken kocht, deze scande en online beschikbaar stelde. Hoewel Google Books ook rechtszaken kreeg over auteursrecht, werd het project uiteindelijk als fair use beschouwd omdat Google de boeken legaal verwierf en niet van illegale bronnen downloadde.

Het wezenlijke verschil tussen Google Books en Anthropic zit in de bron van het materiaal en de intentie van het bedrijf. Google kocht fysieke exemplaren en compenseerde daarmee de tweedehandsmarkt, zonder direct inbreuk te maken op de distributierechten van uitgevers. Anthropic downloadde daarentegen illegale digitale kopieën zonder enige compensatie. Google bouwde bovendien technologische barrières in om te voorkomen dat gebruikers complete boeken konden reproduceren. Anthropic nam volledige boeken op in hun trainingsdata zonder beperkingen.

Daarnaast was het gebruik van Google vooral gericht op indexering en zoekfunctionaliteit, iets dat rechters als transformerend en publiek nuttig zagen. Het gebruik door Anthropic was expliciet commercieel: het trainen van een model om aan klanten te verkopen. Hoewel beide bedrijven profiteerden van hun projecten, was Google’s voordeel indirect (meer zoekverkeer en advertentie-inkomsten), terwijl Anthropic’s voordeel direct was (verkoop van Claude). Deze verschillen telden voor de rechter en verklaren waarom Google’s aanpak werd gezien als fair use en die van Anthropic niet.

De vergelijking

Veelgestelde vragen

Waar gaat de Anthropic-auteursrechtschikking over?

Anthropic, het bedrijf achter Claude AI, wordt geconfronteerd met een schikking van $1,5 miljard wegens het downloaden en gebruiken van illegale boeken van websites als Library Genesis om hun AI-modellen zonder toestemming te trainen. De rechter oordeelde dat dit geen fair use was, waarmee het de grootste auteursrechtschikking ooit is.

Heeft Anthropic bewust inbreuk gemaakt op auteursrechten?

Ja, Anthropic heeft bewust illegale boeken van onwettige bronnen gedownload, maar zij dachten dat hun gebruik onder fair use viel volgens het auteursrecht. De rechter was het daar niet mee eens en oordeelde dat hun gebruik 'inherently and irredeemably infringing' was, zonder legitiem fair use-verweer.

Wat betekent deze schikking voor andere AI-bedrijven?

Deze schikking vormt een belangrijk precedent dat AI-bedrijven geen gebruik kunnen maken van illegale databronnen voor het trainen van modellen en zich vervolgens kunnen beroepen op fair use. Andere bedrijven zoals OpenAI (dat wordt aangeklaagd door de New York Times) zullen waarschijnlijk met vergelijkbare juridische uitdagingen worden geconfronteerd, waardoor de sector zal moeten overstappen op gelicentieerde databronnen en moeten betalen voor contentrechten.

Moet Anthropic Claude vernietigen?

Nee, Anthropic hoeft Claude niet te vernietigen of opnieuw te trainen. Wel moeten zij binnen 30 dagen na het definitieve vonnis de illegale boekbestanden vernietigen. De schikking beperkt toekomstig gebruik van illegaal materiaal en bevat bepalingen voor outputclaims als Claude auteursrechtelijk beschermde tekst woordelijk reproduceert.

Wat voor effect heeft dit op de prijzen van AI-modellen?

Omdat AI-bedrijven overstappen op gelicentieerde databronnen en moeten betalen voor contentrechten, stijgen de kosten voor het trainen van modellen aanzienlijk. Hierdoor zullen AI-diensten waarschijnlijk duurder worden en neemt de waarde toe voor gelicentieerde contentaanbieders zoals nieuwsorganisaties, uitgevers en platforms met door gebruikers gegenereerde content.

Arshia is een AI Workflow Engineer bij FlowHunt. Met een achtergrond in computerwetenschappen en een passie voor AI, specialiseert zij zich in het creëren van efficiënte workflows die AI-tools integreren in dagelijkse taken, waardoor productiviteit en creativiteit worden verhoogd.

Arshia Kahani
Arshia Kahani
AI Workflow Engineer

Automatiseer uw AI-workflows volgens de regels

FlowHunt helpt u bij het beheren van AI-contentgeneratie en dataworkflows, terwijl u voldoet aan auteursrechten en wettelijke vereisten.

Meer informatie

De OpenAI-Microsoft AGI-clausulestrijd
De OpenAI-Microsoft AGI-clausulestrijd

De OpenAI-Microsoft AGI-clausulestrijd

OpenAI en Microsoft zijn verwikkeld in een strijd op hoog niveau over de AGI-clausule in hun samenwerkingsovereenkomst. Deze controversiële bepaling kan Microso...

7 min lezen
OpenAI Microsoft +8