Hvorfor Forstærkningslæring Vandt: Udviklingen af AI-Modellers Finjustering og Historien om OpenPipe

Hvorfor Forstærkningslæring Vandt: Udviklingen af AI-Modellers Finjustering og Historien om OpenPipe

AI Machine Learning Fine-Tuning Reinforcement Learning

Introduktion

Landskabet for kunstig intelligens har gennemgået en dramatisk transformation de seneste to år og har grundlæggende ændret, hvordan organisationer griber modeloptimering og -implementering an. Det, der startede som en klar mulighed for at destillere dyre førende modeller til billigere og mere effektive alternativer, har udviklet sig til et komplekst økosystem, hvor forstærkningslæring, open source-modeller og innovative finjusteringsteknikker er blevet centrale for AI-strategien. Denne artikel udforsker OpenPipes rejse – en virksomhed, der blev grundlagt for at løse det kritiske problem med dyr AI-inferens – og ser nærmere på de overordnede tendenser, der har formet finjusteringsbranchen. Gennem indsigter fra Kyle Corbitt, medstifter og CEO af OpenPipe (for nyligt opkøbt af CoreWeave), får vi forståelsen af, hvorfor forstærkningslæring og finjustering i sidste ende vandt som den dominerende tilgang til optimering af AI-modeller, og hvad det betyder for fremtidens AI-infrastruktur.

{{ youtubevideo videoID=“yYZBd25rl4Q” provider=“youtube” title=“Why RL Won — Kyle Corbitt, OpenPipe (acq. CoreWeave)” class=“rounded-lg shadow-md” }}

At forstå økonomien bag AI-modelimplementering

Grundlaget for finjusteringsrevolutionen ligger i forståelsen af de fundamentale økonomiske aspekter ved AI-modelimplementering. Da GPT-4 blev lanceret i starten af 2023, repræsenterede den et hidtil uset spring i kapabilitet – men også et tilsvarende spring i pris. Organisationer med produktionsarbejdsgange stod over for realiteten: at bruge førende modeller som GPT-4 til hver eneste inferens var økonomisk uholdbart, og nogle virksomheder brugte hundredtusindvis af dollars om måneden på API-kald til OpenAI. Dette skabte en klar markedseffektivitet, der krævede en løsning. Den centrale indsigt var både enkel og kraftfuld: Hvis du kunne indfange de specifikke mønstre og adfærd fra GPT-4 på netop dine brugsscenarier, kunne du destillere denne viden ned i en mindre, billigere model, der ville præstere næsten lige så godt til netop dine arbejdsgange – men til en brøkdel af prisen. Det handlede ikke om at erstatte GPT-4 helt, men om at optimere balancen mellem pris og ydeevne i produktionssystemer, hvor hver inferens havde økonomisk betydning.

Udfordringen var dog, at de open source-modeller, der fandtes på daværende tidspunkt, ikke var tilstrækkeligt kapable til at erstatte GPT-4 direkte. Modeller som Llama 2 var imponerende for sin tid, men havde betydelige kvalitetskløfter sammenlignet med førende modeller. Dette skabte et trebenet pres: Førende modeller var for dyre, open source-modeller var for svage, og der var ingen klar vej for organisationer til at bygge bro over denne kløft effektivt. Markedet havde brug for en løsning, der kunne tage evnerne fra de førende modeller og systematisk overføre dem til mindre, open source-modeller – gennem en proces, der både var teknisk solid og operationelt simpel at implementere for udviklere.

Fremkomsten af modeldestillering og finjustering som service

Fremkomsten af finjustering som en servicekategori markerede et fundamentalt skift i, hvordan organisationer gik til AI-modeloptimering. OpenPipes tilgang var bevidst designet til at være så gnidningsfri som muligt for udviklere. Virksomheden lavede et SDK, der fungerede som en drop-in-erstatning for OpenAI’s SDK, så udviklere kunne fortsætte med at bruge GPT-4 i produktion uden at skulle ændre kode. Bag kulisserne opsamlede OpenPipe alle forespørgsler og svar og byggede derved et datasæt af virkelige eksempler, der viste præcis, hvordan GPT-4 opførte sig på organisationens konkrete opgaver. Dette var en afgørende indsigt: Det bedste træningsdata til finjustering var ikke syntetisk eller generisk, men de faktiske produktionsforespørgsler og -svar, der demonstrerede den ønskede adfærd. Efter at have opsamlet tilstrækkeligt med eksempler kunne organisationer igangsætte en finjusteringsproces, hvor en mindre model blev trænet til at efterligne GPT-4’s adfærd på de specifikke brugsscenarier. Resultatet var et API-endpoint, der var en direkte drop-in-erstatning – udviklere ændrede blot inferens-URL’en, og deres applikation fungerede videre med den nye, billigere model.

Denne tilgang viste sig at være usædvanligt effektiv på markedet. OpenPipe lancerede sit produkt i august 2023 og fik sine første tre kunder inden for en måned. Værdiforslaget var så overbevisende, at virksomheden hurtigt opnåede betydelige indtægter og nåede én million dollars i årlig tilbagevendende omsætning (ARR) på cirka otte måneder. Denne hurtige fremgang demonstrerede, at markedets smerte var reel – organisationer var desperate efter løsninger til at reducere deres AI-infrastrukturudgifter. De første kunder var typisk dem med de største smertepunkter: virksomheder med store produktionsarbejdsgange, der genererede enorme API-regninger. For disse organisationer var muligheden for at reducere omkostningerne med 10x eller mere, uden at gå på kompromis med kvaliteten, transformerende. Finjusteringsservicekategorien havde fundet produkt-marked fit, og markedet var klar til at omfavne denne nye tilgang til AI-modeloptimering.

Open source-modellernes guldalder og LoRA

OpenPipes forretning blev markant påvirket af fremkomsten af open source-modeller af høj kvalitet – især Mistral og Mixtral. Disse modeller markerede et skelsættende øjeblik for finjusteringsindustrien, fordi de tilbød troværdige alternativer til lukkede modeller med stærke præstationer. Mistral var særlig opsigtsvækkende – den overgik Llama 2 og blev lanceret med en fuldt åben Apache 2.0-licens, hvilket på det tidspunkt var en stor fordel for organisationer med fokus på licensbegrænsninger og IP-udfordringer. Tilgængeligheden af disse modeller skabte, hvad man kunne kalde “guldalderen” for finjusteringsstartups, fordi der pludselig var et open source-fundament, der var godt nok til at finjustere og implementere i produktion. Organisationer kunne nu tage Mistral, finjustere den på deres specifikke brugsscenarier og implementere den med ro i sindet, velvidende at de havde en model, der både var kapabel og fri for licensproblemer.

I denne periode opstod Low-Rank Adaptation (LoRA) som en kritisk teknik, der fundamentalt ændrede økonomien for finjustering og inferens. LoRA er en metode, der drastisk reducerer antallet af parametre, der skal trænes under finjusteringsprocessen, hvilket har flere afledte fordele. Først og fremmest mindsker det hukommelseskravet under træning, så større modeller kan finjusteres på mindre GPU’er. Dernæst reducerer det træningstiden, hvilket gør det muligt for organisationer at iterere hurtigere på deres finjusteringsarbejdsgange. Men den største fordel ved LoRA viser sig ved inferens: Når du implementerer en LoRA-adapteret model, kan du multiplekse mange forskellige LoRA-adaptere på samme GPU. Det betyder, at i stedet for at skulle bruge separate GPU-ressourcer til hver finjusteret variant, kan du køre snesevis eller endda hundreder af forskellige LoRA-adaptere på én GPU-implementering. Denne arkitektoniske fordel muliggjorde en grundlæggende anderledes prismodel – i stedet for at afregne per GPU-time (som tilskynder til at holde GPU’er beskæftiget uanset faktisk brug), kunne virksomheder afregne per token og sende effektivitetsgevinsterne direkte videre til kunderne. Dette skifte fra GPU-time til per-token-prissætning var en stor innovation i, hvordan AI-inferens kunne prissættes og implementeres.

FlowHunt og automatisering af finjusteringsarbejdsgange

Efterhånden som finjusteringslandskabet udviklede sig, blev behovet for sofistikeret arbejdsgangsautomatisering stadig tydeligere. Organisationer, der håndterede flere finjusteringseksperimenter, sammenlignede forskellige modelarkitekturer og optimerede hyperparametre, havde brug for værktøjer, der kunne orkestrere disse komplekse processer effektivt. Her bliver platforme som FlowHunt uundværlige – de leverer infrastrukturen til at automatisere hele finjusteringspipeline, fra datapreparation og modeltræning til evaluering og implementering. FlowHunt gør det muligt for teams at oprette avancerede arbejdsgange, der automatisk kan opsamle produktionsdata, igangsætte finjusteringsjobs, når bestemte betingelser er opfyldt, evaluere modelydeevne mod baselines og implementere nye modeller i produktion med minimal manuel indgriben. Ved at automatisere disse arbejdsgange kan organisationer iterere hurtigere på deres finjusteringsstrategier, eksperimentere med forskellige metoder og løbende forbedre deres modeller uden konstant manuel overvågning. Platformens evne til at integrere med forskellige AI-infrastrukturudbydere og modelrepositories gør det muligt at bygge end-to-end-automatisering, der spænder over hele AI-udviklingslivscyklussen.

Konkurrencepres og markedskonsolidering

På trods af stærk indledende fremgang og et tydeligt markedsbehov stod OpenPipe og andre finjusteringsvirksomheder over for et stadigt mere udfordrende konkurrenceklima. Det primære pres kom fra førende laboratorier som OpenAI, Anthropic og andre, der løbende lancerede mere kapable modeller til lavere priser. Dette skabte et konstant pres på værdiforslaget for finjusteringstjenester: Efterhånden som førende modeller blev billigere og bedre, blev besparelsen ved at finjustere en mindre model mindre attraktiv. En model, der kunne spare 10x på omkostninger, mens GPT-4 var dyr, blev mindre interessant, når GPT-4’s pris faldt med 5x eller mere. Dertil begyndte GPU-udbydere og cloud-infrastrukturvirksomheder at integrere finjusteringsfunktioner direkte i deres løsninger, idet de indså, at finjustering gjorde kunder mere loyale og øgede den samlede infrastrukturforbrug. Men disse løsninger led ofte under dårlig udvikleroplevelse – de var svære at bruge, dårligt dokumenterede og ikke integreret i de arbejdsgange, udviklere faktisk brugte. Så selv om det teoretiske trusselbillede var der, materialiserede det sig ikke så stærkt i praksis, fordi udbydernes finjusteringstilbud ganske enkelt ikke var gode nok fra et produktperspektiv.

Det mest betydelige konkurrencepres kom dog fra den vedvarende forbedring af open source-modeller. Efterhånden som modeller som Llama 2, Mistral og senere Llama 3 blev bedre, mindskedes kvalitetsforskellen mellem open source og førende modeller. Det betød, at organisationer i stigende grad kunne bruge open source-modeller direkte uden behov for finjustering, eller de kunne finjustere open source-modeller selv uden at have brug for en specialiseret service. Markedsdynamikken flyttede sig fra “vi er nødt til at destillere GPT-4, fordi den er for dyr” til “vi kan bare bruge en open source-model direkte”. Dette fundamentale skift i markedslandskabet skabte pres på selvstændige finjusteringsfirmaer, da kerneværdiforslaget – at bygge bro mellem dyre førende modeller og svage open source-modeller – blev mindre relevant. Vinduet for selvstændige finjusteringsvirksomheder var ved at lukke, efterhånden som markedet konsoliderede sig omkring større infrastrukturudbydere, der kunne tilbyde integrerede løsninger på tværs af modeltræning, finjustering og inferens.

Hvorfor forstærkningslæring i sidste ende vandt

Titlen “Hvorfor RL vandt” afspejler en dybere sandhed om udviklingen inden for AI-modeloptimering: Forstærkningslæring og finjusteringsteknikker er blevet det dominerende paradigme til at tilpasse AI-modeller til specifikke brugsscenarier. Denne sejr var ikke uundgåelig – den opstod i krydsfeltet mellem teknisk innovation, markedskræfter og de grundlæggende begrænsninger i alternative metoder. Forstærkningslæring, især i forbindelse med finjustering, gør det muligt at optimere modeller ikke blot for nøjagtighed på en bestemt opgave, men for de faktiske mål, der betyder noget for forretningen. I stedet for blot at forsøge at efterligne adfærden fra en førende model, gør forstærkningslæring det muligt at træne modeller direkte på de målepunkter, der tæller – hvad enten det er brugertilfredshed, opgavefuldførelsesrate eller forretningsresultater. Dette repræsenterer en mere sofistikeret tilgang til modeloptimering end simpel superviseret finjustering.

Sejren for RL og finjustering afspejler også virkeligheden, at one-size-fits-all-modeller, uanset hvor kapable de er, aldrig vil være optimale til alle brugsscenarier. Organisationer har specifikke krav, datasæt og præstationsmål. En model, der er finjusteret på dine specifikke data og optimeret mod dine konkrete mål, vil klare sig bedre end en generisk førende model på netop dine opgaver. Dette er et grundlæggende princip, der har vist sig gyldigt i maskinlæring i årtier – og det forbliver sandt i store sprogmodellers tidsalder. Fremkomsten af teknikker som LoRA gjorde finjustering økonomisk muligt – selv for mindre organisationer – og demokratiserede adgangen til modeloptimering. Tilgængeligheden af open source-modeller af høj kvalitet gav et fundament for finjustering, som ikke krævede dyre API’er til førende modeller. Og udviklingen af bedre træningsteknikker og infrastruktur gjorde processen hurtigere og mere pålidelig. Disse faktorer tilsammen skabte et miljø, hvor finjustering og forstærkningslæring blev det naturlige valg for organisationer, der ville optimere AI-modeller til deres specifikke brugsscenarier.

Opkøb og konsolideringstendens

Opkøbet af OpenPipe fra CoreWeave markerer en væsentlig milepæl i konsolideringen af AI-infrastrukturbranchen. CoreWeave, en ledende udbyder af GPU-infrastruktur og AI-beregning, indså at finjusteringsfunktioner var afgørende for deres værdiforslag. Ved at opkøbe OpenPipe fik CoreWeave ikke blot teknologi og ekspertise, men også et team med dyb forståelse for finjusteringsarbejdsgange og organisationernes behov for at optimere deres AI-modeller. Dette opkøb afspejler en bredere tendens i AI-infrastruktur: Konsolidering af specialiserede tjenester i integrerede platforme. I stedet for at have separate virksomheder til modeltræning, finjustering, inferens og overvågning, bevæger markedet sig mod integrerede platforme, der kan håndtere hele AI-livscyklussen. Det giver mening fra flere perspektiver: Det mindsker friktionen for kunder, som ikke længere skal integrere flere tjenester; det skaber netværkseffekter, efterhånden som platformens komponenter bliver tættere forbundet; og det gør det muligt for virksomheder at tilbyde mere konkurrencedygtige priser ved at optimere på tværs af hele stakken.

Opkøbet afspejler også realiteten, at det selvstændige finjusteringsmarked, om end reelt, i sidste ende var for snævert til at understøtte flere uafhængige virksomheder. Markedet blev presset fra flere sider: Førende modeller blev billigere, open source-modeller blev bedre, og GPU-udbydere integrerede finjusteringsfunktioner. I dette miljø var den mest levedygtige vej for en finjusteringsvirksomhed at blive en del af en større infrastrukturplatform, der kunne tilbyde integrerede løsninger. CoreWeaves opkøb af OpenPipe positionerer virksomheden til at tilbyde en samlet løsning til organisationer, der ønsker at optimere deres AI-modeller: adgang til GPU-infrastruktur, finjusteringsfunktioner og inferensimplementering – alt integreret i én platform. Dette repræsenterer markedets naturlige udvikling, efterhånden som det modnes og konsolideres omkring større, mere omfattende platforme.

Udvikleroplevelsen som nøgle

Gennem OpenPipes rejse og finjusteringsmarkedets udvikling går ét tema igen: Udvikleroplevelse betyder alt. GPU-udbyderne havde finjusteringstilbud, men de var svære at bruge og dårligt integreret i udviklernes arbejdsgange. OpenPipe fik succes ikke fordi de havde fundamentalt anderledes teknologi, men fordi de leverede en markant bedre udvikleroplevelse. Drop-in SDK, automatisk dataopsamling, den simple styrede arbejdsgang – alt handlede om at gøre finjustering tilgængelig og gnidningsfri for udviklere. Denne indsigt har vist sig fremsynet, efterhånden som markedet har udviklet sig. Nye AI-modeller og -funktioner vinder ofte ikke på rå teknisk overlegenhed, men på overlegen udvikleroplevelse. Da Anthropic lancerede Claude med et veldesignet API og fremragende dokumentation, strømmede udviklerne til. Da OpenAI udgav GPT-4 med et simpelt, intuitivt interface, blev det standardvalget for mange organisationer. Læringen er klar: I AI-infrastrukturbranchen er udvikleroplevelse ikke bare et plus – det er et afgørende konkurrenceparameter.

Dette princip gælder også for det bredere økosystem af AI-værktøjer og -platforme. FlowHunt får f.eks. succes ved at levere en overlegen udvikleroplevelse til at bygge og automatisere AI-arbejdsgange. I stedet for at kræve, at udviklere skriver komplekse scripts eller styrer infrastruktur direkte, tilbyder FlowHunt en visuel grænseflade og simple abstraktioner, der gør det let at bygge avancerede arbejdsgange. Dette fokus på udvikleroplevelse gør det muligt for platforme at opnå udbredelse og skabe netværkseffekter. Når flere udviklere bruger en platform, bygges flere integrationer, flere skabeloner skabes, og platformen bliver mere værdifuld for alle. Denne positive spiral, hvor forbedret udvikleroplevelse fører til større adoption, er en nøglefaktor for succes i AI-infrastruktur.

{{ cta-dark-panel heading=“Supercharge din arbejdsgang med FlowHunt” description=“Oplev hvordan FlowHunt automatiserer dine AI-indholds- og SEO-arbejdsgange — fra research og indholdsgenerering til publicering og analyse — samlet ét sted.” ctaPrimaryText=“Book en demo” ctaPrimaryURL=“https://calendly.com/liveagentsession/flowhunt-chatbot-demo" ctaSecondaryText=“Prøv FlowHunt gratis” ctaSecondaryURL=“https://app.flowhunt.io/sign-in" gradientStartColor="#123456” gradientEndColor="#654321” gradientId=“827591b1-ce8c-4110-b064-7cb85a0b1217”

}}

Fremtiden for finjustering og modeloptimering

Fremadrettet vil finjusteringslandskabet fortsat udvikle sig som reaktion på flere nøgletrends. For det første: Efterhånden som førende modeller bliver bedre og billigere, vil værdiforslaget for finjustering flytte sig fra “gør dyre modeller overkommelige” til “optimer modeller til specifikke anvendelser og mål”. Det er et mere sofistikeret værdiforslag, der kræver bedre værktøjer til at forstå, hvornår finjustering er gavnlig, hvordan man måler effekten, og hvordan man løbende forbedrer finjusterede modeller over tid. For det andet: Integration af finjustering i større AI-infrastrukturplatforme vil fortsætte, hvor virksomheder som CoreWeave tilbyder end-to-end-løsninger, der spænder over compute, træning, finjustering og inferens. Denne konsolidering vil gøre det lettere for organisationer at tage finjustering til sig som del af deres AI-strategi, men den vil også mindske antallet af uafhængige virksomheder i branchen. For det tredje: Teknikker som LoRA og andre parameter-effektive finjusteringsmetoder vil blive stadig vigtigere, efterhånden som organisationer søger at håndtere kompleksiteten ved at implementere flere finjusterede varianter. Muligheden for at køre mange forskellige finjusterede modeller på delt infrastruktur bliver en væsentlig konkurrencefordel.

Endelig vil fremkomsten af nye AI-evner og modelarkitekturer skabe nye muligheder for finjustering og optimering. Efterhånden som modellerne bliver både mere kapable og mere specialiserede, vil behovet for at finjustere og tilpasse dem kun vokse. De virksomheder og platforme, der kan gøre finjustering lettere, hurtigere og mere effektiv, vil stå stærkest i det kommende landskab. Historien om OpenPipe og det bredere finjusteringsmarked viser, at det i AI ofte er dem, der kan kombinere teknisk innovation med overlegen udvikleroplevelse og dyb forståelse for kundens behov, der vinder. Efterhånden som markedet udvikler sig, vil disse principper forblive centrale for succes.

Konklusion

OpenPipes rejse – fra startup med fokus på de høje omkostninger ved førende modeller til opkøbt virksomhed i CoreWeave – illustrerer AI-infrastrukturmarkedets dynamiske natur. Virksomhedens succes med at opnå én million dollars i ARR på otte måneder viste ægte markedsbehov for finjusteringsløsninger, men den efterfølgende konsolidering afspejler realiteten, at selvstændige finjusteringstjenester står over for strukturelle udfordringer i takt med, at førende modeller bliver billigere og open source-alternativer forbedres. Sejren for forstærkningslæring og finjustering som det dominerende paradigme for modeloptimering skyldes ikke én teknologisk landvinding, men snarere sammensmeltningen af flere faktorer: tilgængeligheden af open source-modeller af høj kvalitet, udviklingen af effektive finjusteringsteknikker som LoRA, fremkomsten af bedre infrastruktur og værktøjer samt det grundlæggende princip, at specialiserede modeller overgår generiske. Opkøbet af OpenPipe fra CoreWeave repræsenterer markedets naturlige udvikling mod integrerede platforme, der kan tilbyde helhedsløsninger på tværs af hele AI-livscyklussen. Efterhånden som markedet modnes, vil succes i stigende grad afhænge af overlegen udvikleroplevelse, dyb integration på tværs af AI-stakken og evnen til at hjælpe organisationer med at optimere deres modeller til netop deres brugsscenarier og forretningsmål.

Ofte stillede spørgsmål

Hvad er model-fadjustering, og hvorfor er det vigtigt?

Model-fadjustering er processen, hvor man tager en prætrænet AI-model og tilpasser den til at udføre specifikke opgaver ved at træne den på domænespecifikke data. Det er vigtigt, fordi det gør det muligt for organisationer at udnytte de store sprogmodellers evner og samtidig optimere dem til deres særlige brugsscenarier, hvilket reducerer omkostninger og forbedrer ydeevnen for specifikke arbejdsgange.

Hvordan forbedrer LoRA effektiviteten af finjustering?

LoRA (Low-Rank Adaptation) reducerer antallet af parametre, der skal trænes under finjusteringen, hvilket mindsker hukommelsesforbruget og træningstiden. Endnu vigtigere gør LoRA det muligt at køre flere finjusterede modeller på samme GPU ved at multiplekse dem, så man kan afregne per token i stedet for per GPU-time og opnå større fleksibilitet i implementeringen.

Hvorfor blev open source-modeller som Mistral vigtige for finjustering?

Open source-modeller som Mistral tilbød troværdige alternativer til lukkede modeller med stærke præstationer og en tilladende licens (Apache 2.0). De udfyldte kløften mellem dyre førende modeller og open source-alternativer af lavere kvalitet, hvilket gjorde dem til ideelle kandidater for finjusterings- og destilleringsarbejdsgange.

Hvilke faktorer førte til konsolideringen blandt finjusteringsvirksomheder?

Det hurtige fald i tokenpriser for førende modeller, fremkomsten af mere kapable open source-modeller og integrationen af finjusteringsfunktioner hos GPU-udbydere skabte et konkurrencepræget pres. Desuden blev værdien af selvstændige finjusteringstjenester mindre, efterhånden som prisforskellen mellem førende og åbne modeller svandt ind, hvilket førte til konsolidering i branchen.

Arshia er AI Workflow Engineer hos FlowHunt. Med en baggrund inden for datalogi og en passion for AI, specialiserer han sig i at skabe effektive workflows, der integrerer AI-værktøjer i daglige opgaver og øger produktivitet og kreativitet.

Arshia Kahani
Arshia Kahani
AI Workflow Engineer

Optimer dine AI-arbejdsgange med FlowHunt

Automatisér dine processer for finjustering og modeloptimering med intelligent arbejdsgangsautomatisering.

Lær mere

KPMG's AI-risiko- og kontrolguide
KPMG's AI-risiko- og kontrolguide

KPMG's AI-risiko- og kontrolguide

Udforsk KPMG's AI-risiko- og kontrolguide—et praktisk rammeværk, der hjælper organisationer med at håndtere AI-risici etisk, sikre compliance og opbygge pålidel...

12 min læsning
AI Risk AI Governance +5