L'accordo da 1,5 miliardi di dollari di Anthropic sul copyright cambia per sempre l'IA

L'accordo da 1,5 miliardi di dollari di Anthropic sul copyright cambia per sempre l'IA

AI Copyright Legal Regulation

Introduzione

Il settore dell’intelligenza artificiale ha appena subito una scossa sismica. Anthropic, l’azienda dietro Claude, uno degli assistenti IA più avanzati disponibili oggi, si trova ad affrontare un accordo storico da 1,5 miliardi di dollari sul copyright—il più grande della storia. Non si tratta di una semplice battuta d’arresto legale o di un accordo di routine; rappresenta una fondamentale resa dei conti su come le aziende IA hanno acquisito dati per l’addestramento e solleva domande cruciali sul futuro dello sviluppo dell’IA. L’accordo rivela che Anthropic ha deliberatamente scaricato libri piratati da fonti illegali come Library Genesis per addestrare i propri modelli, credendo che questa pratica rientrasse nelle tutele del fair use. Il tribunale ha respinto con decisione questa argomentazione, stabilendo che l’uso di Anthropic era “intrinsecamente e irrimediabilmente in violazione”. Questa decisione avrà ripercussioni su tutto il settore IA, costringendo le aziende a riconsiderare le strategie di acquisizione dei dati e potenzialmente a rimodellare l’economia della costruzione dei modelli fondativi. Comprendere questo accordo è fondamentale per chiunque sia interessato a IA, diritto d’autore, strategia aziendale o futuro della tecnologia.

Thumbnail for The Anthropic Copyright Settlement Explained

La violazione del copyright si verifica quando qualcuno utilizza un’opera creativa senza permesso in modo da violare i diritti esclusivi del titolare. Nei contesti tradizionali, questo può significare copiare una canzone, riprodurre un libro o distribuire un film senza autorizzazione. Tuttavia, l’applicazione della legge sul copyright ai dati di addestramento dell’intelligenza artificiale presenta sfide nuove e complesse che i tribunali stanno solo ora iniziando ad affrontare in modo esaustivo. Quando le aziende IA addestrano i loro modelli, necessitano di enormi dataset contenenti testi, immagini, codice e altre opere creative. Storicamente, alcune aziende hanno sostenuto che l’utilizzo di materiale protetto da copyright per scopi di addestramento rientri nel “fair use”—un principio legale che consente un uso limitato di materiale protetto senza permesso per scopi come critica, commento, istruzione o ricerca. Il caso Anthropic mette fondamentalmente in discussione questa interpretazione stabilendo che scaricare libri piratati specificamente per addestrare modelli IA commerciali non costituisce fair use, indipendentemente dalle intenzioni dell’azienda o dalla natura trasformativa del modello risultante.

La distinzione tra acquisizione legittima dei dati e violazione del copyright dipende da diversi fattori. Innanzitutto, la fonte dei dati è molto importante. Se un’azienda acquista libri, ottiene licenze o utilizza materiale pubblico con la dovuta attribuzione, opera entro i limiti della legge. Tuttavia, se attinge deliberatamente materiale da archivi pirata—siti che distribuiscono illegalmente opere protette—oltrepassa il confine della violazione. In secondo luogo, lo scopo e la natura dell’uso incidono sull’analisi del fair use. Sebbene l’addestramento di un modello IA possa sembrare un uso trasformativo, il tribunale nel caso Anthropic ha stabilito che l’uso di materiale piratato a fini commerciali per costruire un prodotto redditizio differisce fondamentalmente dagli usi educativi o di ricerca. In terzo luogo, conta l’effetto sul mercato dell’opera originale. Quando Anthropic ha addestrato Claude su libri piratati senza compensare autori o editori, ha potenzialmente ridotto il valore di mercato di quelle opere e l’incentivo a ottenere licenze legittime. Questi fattori combinati hanno creato un caso schiacciante contro la difesa di fair use di Anthropic.

Perché le argomentazioni sul fair use hanno fallito per Anthropic

Il concetto di fair use è da sempre un pilastro della legge sul copyright, progettato per bilanciare i diritti dei creatori con l’interesse pubblico nell’accesso e nell’elaborazione di opere creative. Il fair use consente la riproduzione limitata di materiale protetto per scopi come critica, commento, informazione, insegnamento, studio e ricerca. Molte aziende IA, inclusa Anthropic, inizialmente ritenevano che l’addestramento dei modelli su materiale protetto rientrasse in questa categoria, soprattutto se il modello risultante non riproduceva le opere originali alla lettera. Tuttavia, l’analisi del tribunale nell’accordo Anthropic mostra perché questa argomentazione fallisce fondamentalmente nel contesto dell’utilizzo deliberato di materiale piratato.

Il tribunale ha applicato il test dei quattro fattori previsto dalla legge sul copyright. Il primo fattore analizza lo scopo e la natura dell’uso. Sebbene l’addestramento IA possa sembrare trasformativo—convertendo testo in rappresentazioni matematiche e pesi di modelli—il tribunale ha sottolineato che l’uso di Anthropic era esplicitamente commerciale. Anthropic non stava conducendo ricerca accademica o creando materiali didattici; stava costruendo un prodotto commerciale volto a generare entrate. Il secondo fattore riguarda la natura dell’opera protetta. I libri, in particolare le opere pubblicate, ricevono una forte tutela perché rappresentano un notevole investimento creativo ed economico. Il terzo fattore analizza quanto dell’opera originale sia stato utilizzato. Anthropic non ha usato estratti o brani; ha scaricato interi libri da fonti piratate, incorporando opere complete nei propri dataset. Il quarto e spesso più decisivo fattore esamina l’effetto sul mercato dell’opera originale. Usando libri piratati senza compensazione, Anthropic ha ridotto l’incentivo per le licenze legittime e potenzialmente diminuito il valore di mercato delle opere.

Ciò che rende il caso Anthropic particolarmente grave è la natura deliberata delle sue azioni. Non si tratta di una violazione accidentale o di una zona grigia in cui un’azienda credeva ragionevolmente di operare legalmente. Prove interne hanno rivelato che Anthropic ha consapevolmente acquisito materiale da siti pirata, sapendo che queste fonti erano illegali. Hanno preso una decisione d’affari calcolata usando materiale piratato e gratuito invece di ottenere licenze legittime. Questa intenzionalità ha rafforzato il caso contro di loro e probabilmente influenzato il linguaggio severo del tribunale che ha definito l’uso “intrinsecamente e irrimediabilmente in violazione”. L’accordo stabilisce essenzialmente che nessun grado di uso trasformativo può superare il problema fondamentale dell’uso deliberato di materiale piratato a fini commerciali.

La portata dell’acquisizione dati di Anthropic: oltre 500.000 libri

Comprendere la portata della violazione del copyright di Anthropic richiede di cogliere la scala delle sue attività di acquisizione dati. I documenti dell’accordo rivelano che Anthropic ha scaricato oltre 500.000 libri da fonti pirata per addestrare i modelli Claude. Non si tratta di una piccola svista o di una minima inclusione di materiale protetto; rappresenta uno sforzo sistematico e su larga scala per costruire dataset di addestramento usando fonti illegali. Il numero 500.000 è impressionante se si considera che ogni libro rappresenta lavoro creativo, proprietà intellettuale e valore economico. Non si trattava di opere oscure o fuori catalogo; molti erano libri contemporanei e di valore commerciale di grandi editori e autori che dipendono dalle vendite per il proprio sostentamento.

Anche il processo di scoperta che ha portato alla luce questa violazione è stato notevole. I querelanti hanno condotto 20 deposizioni, esaminato centinaia di migliaia di pagine di documenti e ispezionato almeno tre terabyte di dati di addestramento. Non si è trattato semplicemente di trovare alcuni file piratati; è stata necessaria un’analisi forense approfondita per risalire dai dataset di Anthropic alle fonti illegali. L’analisi dei metadati si è rivelata cruciale: esaminando l’impronta digitale e le caratteristiche dei dati, gli investigatori hanno potuto collegare in modo definitivo i dataset di Anthropic ad archivi pirata come Library Genesis e Pirate Library Mirror. Queste prove tecniche hanno reso impossibile per Anthropic affermare di non conoscere la provenienza dei dati.

La struttura dell’accordo riflette la portata della violazione attraverso un sistema di pagamenti a scaglioni. L’accordo base di 1,5 miliardi di dollari rappresenta il minimo, calcolato in base alle 500.000 opere confermate. Tuttavia, l’accordo include una clausola critica: se la lista finale delle opere supera i 500.000 libri, Anthropic dovrà pagare altri 3.000 dollari per ogni opera oltre tale soglia. Ciò significa che, se gli investigatori identificano alla fine 600.000 opere in violazione, Anthropic dovrà altri 300 milioni di dollari. Questa struttura incentiva un’indagine approfondita e garantisce che l’importo rifletta la reale portata della violazione. Gli interessi, che potrebbero superare i 126 milioni di dollari entro il pagamento finale, aumentano ulteriormente il costo totale delle azioni di Anthropic.

La ripartizione dell’accordo: come Anthropic deve pagare

La struttura finanziaria dell’accordo Anthropic mostra la volontà del tribunale di imporre conseguenze significative garantendo allo stesso tempo la sopravvivenza dell’azienda. L’accordo non prevede un pagamento unico immediato; è invece suddiviso in più pagamenti nel tempo, con scadenze specifiche e maturazione di interessi. Questo approccio serve a vari scopi: garantisce che Anthropic possa effettivamente pagare senza fallire subito, permette l’accumulo di interessi che compensa i querelanti per il valore temporale del denaro e crea una pressione finanziaria continua che rafforza la serietà della sentenza.

Il piano di pagamento inizia con 300 milioni di dollari dovuti entro cinque giorni lavorativi dall’ordinanza di approvazione preliminare del tribunale. Questo pagamento immediato dimostra l’impegno di Anthropic e offre un primo risarcimento alla classe dei querelanti. Altri 300 milioni sono dovuti entro cinque giorni lavorativi dall’ordinanza di approvazione finale, accelerando ulteriormente la tempistica. I pagamenti restanti sono dilazionati: 450 milioni più interessi entro 12 mesi dall’approvazione preliminare e altri 450 milioni più interessi entro 24 mesi. La componente interessi è significativa—alla scadenza del pagamento finale, gli interessi potrebbero arrivare a circa 126,4 milioni di dollari, portando il totale oltre 1,6 miliardi.

Per contestualizzare questi importi, occorre sapere che l’accordo rappresenta quattro volte l’importo dei danni legali (750 dollari per opera) che una giuria avrebbe potuto stabilire e 15 volte l’importo (200 dollari per opera) se Anthropic avesse dimostrato la violazione innocente. Questo moltiplicatore riflette la percezione del tribunale che il comportamento di Anthropic fosse volontario e deliberato. L’accordo si inserisce anche nel contesto del recente round di finanziamenti Series F da 13 miliardi di dollari a una valutazione post-money di 183 miliardi. Sebbene 1,5 miliardi sia una cifra rilevante, rappresenta circa l'11,5% dei fondi raccolti, una percentuale che gli investitori sembrano aver già considerato. Questo suggerisce che i grandi investitori nel settore IA iniziano a includere il rischio di cause e accordi sul copyright come costo del fare impresa.

La prospettiva di FlowHunt: Gestire la conformità nei flussi di lavoro IA

Man mano che le aziende IA affrontano scenari legali e regolamentari sempre più complessi, l’importanza della gestione dei flussi di lavoro orientati alla conformità diventa fondamentale. FlowHunt riconosce che l’accordo Anthropic rappresenta un punto di svolta per il settore, che richiede nuovi approcci alla governance dei dati, all’approvvigionamento dei contenuti e alle pratiche di addestramento dei modelli. Le organizzazioni che sviluppano sistemi IA devono ora implementare processi rigorosi per garantire che tutti i dati di addestramento siano acquisiti legalmente, correttamente licenziati e documentati a fini di conformità.

L’accordo crea sfide pratiche immediate per le aziende IA. Devono verificare i dataset esistenti per identificare materiale piratato o non autorizzato, implementare nuovi processi di acquisizione dati che privilegino fonti con licenza e mantenere una documentazione dettagliata sulla provenienza dei dati. Le capacità di automazione di FlowHunt possono ottimizzare questi flussi di lavoro di conformità creando processi sistematici di validazione dei dati, verifica delle fonti e documentazione delle licenze. Invece di affidarsi a revisioni manuali soggette a errori e incoerenze, le organizzazioni possono implementare flussi di lavoro automatizzati che confrontano le fonti dati con archivi pirata noti, verificano gli accordi di licenza e segnalano potenziali problemi di conformità prima che diventino legali.

Inoltre, FlowHunt consente alle organizzazioni di costruire audit trail trasparenti per i processi di addestramento IA. Quando regolatori, investitori o team legali hanno bisogno di sapere come è stato addestrato un modello e da dove provengono i dati, una documentazione completa diventa essenziale. Automatizzando la documentazione e la tracciabilità delle fonti dati, degli accordi di licenza e dei controlli di conformità, FlowHunt aiuta le organizzazioni a dimostrare di aver adottato misure ragionevoli per garantire il rispetto della legge. Questo approccio proattivo non solo riduce il rischio legale, ma costruisce fiducia tra gli stakeholder che si preoccupano sempre più delle basi etiche e legali dei sistemi IA.

Le implicazioni più ampie: come questo accordo cambia lo sviluppo dell’IA

L’accordo Anthropic rappresenta molto più di un singolo problema legale aziendale; segna un cambiamento fondamentale nel modo in cui il settore IA opererà d’ora in avanti. Questo precedente influenzerà il modo in cui le altre aziende IA gestiranno l’acquisizione dei dati, il modo in cui gli investitori valuteranno le startup IA e il modo in cui i regolatori penseranno alla protezione del copyright nell’era dell’IA. L’accordo stabilisce essenzialmente che la mentalità del “muoviti in fretta e rompe le regole” che ha caratterizzato la prima fase dello sviluppo IA non è più praticabile quando si parla di violazione del copyright.

Innanzitutto, l’accordo accelererà il passaggio da fonti di dati piratati a contenuti con licenza. Aziende come OpenAI, Google, Meta e altre che potrebbero aver utilizzato strategie simili ora sono esposte a rischi legali evidenti. Il New York Times sta attualmente facendo causa a OpenAI per una violazione simile e questo accordo influenzerà probabilmente quel caso e altri. Di conseguenza, vedremo una crescente domanda di dataset con licenza, che farà aumentare i prezzi dei contenuti di valore. Editori, testate giornalistiche e creatori di contenuti vedranno la propria proprietà intellettuale diventare sempre più preziosa, mentre le aziende IA competeranno per fonti di dati legittime. Questo rappresenta un cambiamento significativo nelle dinamiche di mercato—le aziende IA dovranno negoziare accordi di licenza e pagare per i diritti sui contenuti.

In secondo luogo, l’accordo aumenterà il costo dell’addestramento dei modelli fondativi. Se le aziende devono ottenere licenze per i contenuti invece di usare fonti pirata, l’economia dello sviluppo IA cambierà drasticamente. L’addestramento di un grande modello linguistico richiede enormi quantità di dati e la licenza di questi dati su larga scala sarà costosa. Questo aumento dei costi verrà probabilmente trasferito sui consumatori attraverso prezzi più alti per i servizi IA, oppure ridurrà la redditività delle aziende IA. Le startup più piccole, prive del capitale necessario a ottenere licenze su larga scala, faticheranno a competere con i grandi attori che invece possono permetterselo. Questo potrebbe portare a una concentrazione del settore IA, con poche aziende ben capitalizzate a dominare il mercato.

In terzo luogo, l’accordo stimolerà maggiori investimenti nella governance dei dati e nell’infrastruttura di conformità. Le aziende IA dovranno implementare sistemi robusti per tracciare la provenienza dei dati, verificare gli accordi di licenza e garantire la conformità alla legge sul copyright. Ciò creerà opportunità per aziende che forniscono soluzioni di governance dei dati, compliance e audit. Le organizzazioni dovranno investire in strumenti e processi che aiutino a gestire le dimensioni legali ed etiche dello sviluppo IA, non solo quelle tecniche. Questo rappresenta una maturazione del settore IA, che si sposta da un focus esclusivamente sulle prestazioni dei modelli verso un approccio più olistico che includa aspetti legali, etici e di conformità.

Come l’accordo limita l’uso futuro di materiale piratato da parte di Anthropic

Sebbene l’accordo finanziario sia sostanziale, le restrizioni sull’uso futuro di materiale protetto da copyright da parte di Anthropic potrebbero rivelarsi ancora più importanti. L’accordo include tre limitazioni critiche sul rilascio di responsabilità di Anthropic. Comprendere queste restrizioni rivela che l’accordo non è solo una transazione finanziaria, ma una ristrutturazione completa del modo in cui Anthropic potrà operare in futuro.

Primo, il rilascio riguarda solo le rivendicazioni passate e non si estende in modo esplicito a eventuali rivendicazioni per riproduzione, distribuzione o creazione di opere derivate future. Ciò significa che, se Anthropic continuerà a usare materiale piratato o a violare il copyright in futuro, dovrà affrontare nuove cause e ulteriori responsabilità. L’accordo non offre immunità generale; copre solo la violazione avvenuta in passato. Questa restrizione crea una continua esposizione legale se Anthropic non cambia radicalmente le pratiche di acquisizione dati.

Secondo, l’accordo non riguarda affatto le rivendicazioni sugli output. Questa è una restrizione particolarmente importante che molti trascurano. Anche se Anthropic ha addestrato Claude su libri piratati, l’accordo non impedisce ai titolari di copyright di citare in giudizio se Claude produce output che riproducono testo protetto quasi alla lettera. Immagina che un utente chieda a Claude di scrivere qualcosa e che Claude produca un testo molto simile a un brano dei libri piratati utilizzati nell’addestramento. Il titolare del copyright potrebbe citare in giudizio Anthropic per tale output, sostenendo che il modello sta riproducendo la propria opera. Ciò crea un rischio di responsabilità che si estende oltre la fase di addestramento e riguarda anche l’uso operativo del modello.

Terzo, l’accordo rilascia le rivendicazioni solo per le opere nella lista specifica delle opere. Se un titolare di copyright possiede più opere e solo una appare nella lista dell’accordo, mantiene il diritto di citare per violazione delle altre. Ciò significa che l’accordo è mirato alle opere specifiche identificate durante la discovery. Se in seguito emergeranno altre opere piratate usate da Anthropic, i rispettivi titolari potranno avviare nuove azioni. Questa struttura incentiva indagini approfondite e impedisce ad Anthropic di usare l’accordo come scudo contro tutte le rivendicazioni.

L’obbligo di distruzione dei dati: prevenire abusi futuri

Uno dei requisiti pratici più rilevanti dell’accordo è che Anthropic dovrà distruggere tutti i file dei libri piratati entro 30 giorni dal giudizio finale. Questo requisito serve a diversi scopi: impedisce ad Anthropic di continuare a usare il materiale piratato, dimostra la volontà del tribunale di fermare la violazione e crea una scadenza chiara e verificabile per la conformità. Tuttavia, l’obbligo di distruzione evidenzia anche un limite dei rimedi giuridici nel contesto IA.

Anthropic deve distruggere i file piratati, ma non è obbligata a distruggere o riaddestrare Claude. Questa distinzione è cruciale perché riaddestrare un modello linguistico da zero sarebbe estremamente costoso e richiederebbe mesi di risorse computazionali. Costringere Anthropic a distruggere Claude significherebbe di fatto chiudere l’azienda, cosa che il tribunale ha probabilmente ritenuto una misura eccessiva. L’accordo punta invece a prevenire futuri abusi del materiale piratato, consentendo ad Anthropic di continuare a operare con il modello già addestrato.

Questo crea una situazione legale ed etica interessante. Claude è stato addestrato su libri piratati e queste informazioni sono ora incorporate nei pesi e nei parametri del modello. Non è possibile “disaddestrare” un modello da parti specifiche dei dati. Le conoscenze derivate da quei libri restano parte delle capacità di Claude. Tuttavia, l’accordo impedisce ad Anthropic di usare quei file piratati per addestrare nuovi modelli o accedere nuovamente al materiale. Si tratta di un compromesso pragmatico tra la necessità di punire la violazione e la volontà di evitare una misura talmente drastica da distruggere l’azienda.

L’obbligo di distruzione crea anche sfide di conformità. Anthropic dovrà dimostrare di aver distrutto tutte le copie dei file piratati e che non esistano backup o copie secondarie. Ciò richiede pratiche gestionali rigorose e, probabilmente, una verifica di terze parti. L’accordo include verosimilmente clausole di audit per garantire che Anthropic rispetti effettivamente l’obbligo invece di dichiarare la conformità mantenendo copie nascoste dei dati.

A chi vanno i soldi: la distribuzione dei fondi dell’accordo

I fondi dell’accordo saranno distribuiti a “tutti i titolari effettivi o legali del diritto esclusivo di riprodurre copie del libro nelle versioni di LibGen o Palei scaricate da Anthropic.” Questo significa che i fondi vanno ai veri titolari del copyright—autori, editori e altri detentori di diritti—e non a un fondo generico o allo Stato. Il processo di distribuzione sarà probabilmente complesso, richiedendo l’identificazione di tutti i titolari di copyright per i 500.000+ libri e la determinazione del compenso appropriato per ciascuno.

Il meccanismo di distribuzione prevederà probabilmente una procedura di rivendicazione, in cui i titolari dovranno fornire documentazione che attesti la proprietà delle opere incluse nei dati di addestramento di Anthropic. Questo processo potrebbe durare anni, poiché gli amministratori dovranno esaminare migliaia o milioni di richieste. Alcuni titolari saranno facilmente identificabili—grandi editori con registri chiari—altri meno, soprattutto per opere più vecchie, auto-pubblicate o con titolarità cambiata più volte. L’accordo dovrà stabilire cosa fare con i fondi non reclamati e come gestire i casi in cui i titolari non siano rintracciabili.

Questa struttura solleva anche domande sul valore delle diverse opere. Un romanzo bestseller dovrebbe ricevere lo stesso compenso di un testo accademico sconosciuto? Il compenso dovrebbe basarsi sul valore di mercato, sul numero di utilizzi nell’addestramento o su altri criteri? I documenti dell’accordo probabilmente contengono linee guida in merito, anche se la formula specifica potrebbe non essere pubblica. È chiaro che l’accordo rappresenta un trasferimento significativo di ricchezza da Anthropic alla comunità creativa, riconoscendo che i titolari di copyright meritano un compenso quando le loro opere vengono usate per addestrare modelli IA commerciali.

Il precedente: come influisce sulle altre aziende IA

L’accordo Anthropic avrà ripercussioni su tutto il settore IA, influenzando il modo in cui le aziende gestiscono l’acquisizione dei dati e valutano l’esposizione legale. Diverse grandi aziende IA stanno affrontando cause simili e questo accordo influenzerà probabilmente quei casi. Il New York Times ha citato in giudizio OpenAI per una violazione simile, sostenendo l’uso di contenuti protetti senza permesso per addestrare i modelli. L’accordo Anthropic stabilisce che i tribunali non accetteranno argomentazioni di fair use quando le aziende usano deliberatamente materiale piratato a fini commerciali, rafforzando notevolmente la posizione del New York Times.

Oltre al contenzioso attivo, l’accordo influenzerà le strategie aziendali di acquisizione dati. Le aziende che hanno utilizzato dati piratati o di dubbia provenienza saranno spinte a revisionare le proprie pratiche e, forse, a cercare accordi preventivi per evitare sentenze peggiori. Gli investitori chiederanno garanzie che i dati di addestramento siano legali e probabilmente pretenderanno dichiarazioni formali sulla provenienza dei dati. Questo aumenterà i requisiti di due diligence e potrebbe rallentare i round di finanziamento a causa di indagini più approfondite.

L’accordo fissa anche un precedente per il calcolo dei danni. Gli 1,5 miliardi di dollari per 500.000 opere equivalgono a circa 3.000 dollari per opera, molto più dei danni legali tipici. Questo crea un riferimento per futuri accordi e sentenze: se altre aziende affronteranno cause simili, dovranno aspettarsi danni di questa entità, rendendo evidente l’esposizione economica della violazione del copyright. Questa realtà economica spingerà le aziende verso fonti di dati legittime, anche se più costose.

L’economia dell’addestramento IA: come le licenze cambieranno il settore

L’accordo Anthropic altera radicalmente l’economia dell’addestramento dei grandi modelli linguistici. In passato le aziende potevano accedere a enormi quantità di dati gratuitamente usando fonti pirata. Questo offriva un vantaggio competitivo rispetto a chi invece otteneva licenze. L’accordo elimina questo vantaggio, stabilendo che le fonti pirata non sono più un’opzione. In futuro le aziende IA dovranno ottenere licenze, il che aumenterà notevolmente i costi di addestramento.

Basta pensare alla quantità di dati necessari per addestrare un grande modello linguistico. Modelli come Claude, GPT-4 e simili sono addestrati su centinaia di miliardi di token testuali. Se le aziende devono ottenere licenze invece di attingere gratuitamente, i costi potrebbero raggiungere facilmente centinaia di milioni o miliardi di dollari. Questo cambierà radicalmente il panorama competitivo: le aziende ben finanziate potranno permettersi le licenze, mentre le startup minori faticheranno. Potrebbe verificarsi una concentrazione del settore IA con poche grandi aziende a dominare.

L’accordo aumenterà anche il valore dei contenuti con licenza. Editori, testate e creatori di contenuti scopriranno che la loro proprietà intellettuale è ora molto richiesta dalle aziende IA. Si creeranno opportunità per aziende di licensing e nuovi modelli di business in cui i creatori monetizzano il proprio lavoro concedendolo in licenza alle IA. Potremmo assistere alla nascita di piattaforme specializzate che aggregano contenuti e li concedono su larga scala. Questo segna un cambiamento importante nell’economia creativa, con le aziende IA come nuovi grandi clienti dei creatori.

L’aumento dei costi di addestramento sarà probabilmente trasferito sui consumatori attraverso prezzi più alti per i servizi IA. Se addestrare un modello costa miliardi di dollari in licenze, le aziende dovranno recuperare questi costi dai prodotti e servizi. Ciò potrebbe rallentare l’adozione e cambiare le dinamiche del mercato. In alternativa, le aziende potrebbero puntare su metodi di addestramento più efficienti o su dataset più piccoli e mirati, meno costosi da licenziare. Potremmo così assistere a uno spostamento dai modelli generalisti di grandi dimensioni verso modelli più piccoli e specializzati su dataset di alta qualità.

L’accordo Anthropic ha implicazioni significative per gli investitori nelle aziende IA. Il risarcimento di 1,5 miliardi rappresenta una passività finanziaria che gli investitori devono ora considerare nelle valutazioni e nelle analisi di rischio. L’ultimo round di finanziamento da 13 miliardi di Anthropic è avvenuto a conoscenza dell’accordo, il che suggerisce che gli investitori abbiano già calcolato questa passività. Tuttavia, l’accordo solleva domande più ampie sul rischio copyright in tutto il settore IA.

Gli investitori dovranno ora effettuare una due diligence più approfondita sulle pratiche di acquisizione dati delle aziende IA in cui intendono investire. Devono comprendere la provenienza dei dati, se sono correttamente licenziati e qual è l’esposizione a potenziali cause sul copyright. Questo aumenta costi e complessità degli investimenti, poiché sarà necessario coinvolgere esperti legali per valutare le pratiche sui dati e il rischio copyright. Le aziende che potranno dimostrare pratiche chiare, documentate e legali di acquisizione dati avranno un vantaggio competitivo nel fundraising, perché presentano meno rischio.

L’accordo influenza anche la valutazione delle aziende IA. Se le cause e gli accordi sul copyright diventano un costo prevedibile, gli investitori scontano di conseguenza le valutazioni. Un’azienda che ha già risolto le proprie cause potrebbe essere vista più positivamente di una che deve ancora affrontarle, perché la passività è nota e quantificata. Al contrario, aziende con pratiche dubbie potrebbero subire forti sconti o difficoltà a raccogliere capitali.

Inoltre, l’accordo spinge le aziende IA verso fonti di dati con licenza, aumentando i costi operativi e riducendo i margini di profitto. Gli investitori dovranno adeguare i modelli finanziari per tener conto dei maggiori costi di acquisizione dati, il che influirà sul rendimento atteso. Alcuni potrebbero concludere che il mercato IA sia meno attraente di quanto sembrasse, data la crescita dei rischi e dei costi. Potrebbe quindi rallentare il finanziamento IA e aumentare la cautela degli investimenti.

L’accordo Anthropic si inserisce in un contesto di domande più ampie su come la legge sul copyright debba applicarsi all’intelligenza artificiale. Il caso stabilisce precedenti importanti sul fair use, ma solleva anche quesiti ancora irrisolti. Ad esempio, cosa succede alle aziende che usano materiale protetto da fonti legittime ma senza licenza esplicita per l’addestramento IA? O a chi utilizza materiale pubblico che può includere opere protette? Queste domande verranno probabilmente affrontate in future cause e leggi.

L’accordo mette anche in luce la tension

Domande frequenti

Di cosa tratta l'accordo sul copyright di Anthropic?

Anthropic, l'azienda dietro Claude AI, affronta un accordo da 1,5 miliardi di dollari per aver scaricato e utilizzato libri piratati da siti come Library Genesis per addestrare i propri modelli IA senza permesso. Il tribunale ha stabilito che non si tratta di fair use, rendendolo il più grande accordo sul copyright della storia.

Anthropic ha violato intenzionalmente i diritti d'autore?

Sì, Anthropic ha scaricato intenzionalmente libri piratati da fonti illegali, ma riteneva che il loro uso fosse coperto dal fair use secondo la legge sul copyright. Il tribunale non è stato d'accordo, stabilendo che il loro uso era 'intrinsecamente e irrimediabilmente in violazione' senza una legittima difesa di fair use.

Cosa significa questo accordo per le altre aziende IA?

Questo accordo stabilisce un importante precedente: le aziende IA non possono utilizzare fonti di dati piratati per addestrare i modelli e rivendicare il fair use. Altre aziende come OpenAI (citata in giudizio dal New York Times) dovranno probabilmente affrontare sfide legali simili, costringendo il settore ad adottare fonti di dati con licenza e a pagare per i diritti sui contenuti.

Anthropic dovrà distruggere Claude?

No, Anthropic non dovrà distruggere o riaddestrare Claude. Tuttavia, dovrà distruggere i file dei libri piratati entro 30 giorni dal giudizio definitivo. L'accordo limita l'uso futuro di materiale piratato e include clausole per le rivendicazioni di output se Claude riproduce testo protetto da copyright alla lettera.

Come influenzerà questo i prezzi dei modelli IA?

Poiché le aziende IA passeranno a fonti di dati con licenza e dovranno pagare i diritti sui contenuti, il costo per addestrare i modelli aumenterà notevolmente. Ciò porterà probabilmente a prezzi più alti per i servizi IA e a un valore maggiore per i fornitori di contenuti con licenza come testate giornalistiche, editori e piattaforme di contenuti generati dagli utenti.

Arshia è una AI Workflow Engineer presso FlowHunt. Con una formazione in informatica e una passione per l'IA, è specializzata nella creazione di workflow efficienti che integrano strumenti di intelligenza artificiale nelle attività quotidiane, migliorando produttività e creatività.

Arshia Kahani
Arshia Kahani
AI Workflow Engineer

Automatizza i tuoi flussi di lavoro IA in modo conforme

FlowHunt ti aiuta a gestire la generazione di contenuti IA e i flussi di lavoro dei dati garantendo la conformità alle normative sul copyright e ai requisiti legali.

Scopri di più

La battaglia sulla clausola AGI tra OpenAI e Microsoft
La battaglia sulla clausola AGI tra OpenAI e Microsoft

La battaglia sulla clausola AGI tra OpenAI e Microsoft

OpenAI e Microsoft sono impegnate in una battaglia ad alto rischio sulla clausola AGI nel loro accordo di partnership. Questa disposizione controversa potrebbe ...

8 min di lettura
OpenAI Microsoft +8