FlowHunt CLI Toolkit: Open Source-flödesutvärdering med LLM som Domare

FlowHunt CLI Toolkit: Open Source-flödesutvärdering med LLM som Domare

FlowHunts nya open source CLI-verktyg möjliggör omfattande flödesutvärdering med LLM som Domare och erbjuder detaljerad rapportering samt automatiserad kvalitetsbedömning för AI-arbetsflöden.

Vi är glada att kunna presentera FlowHunt CLI Toolkit – vårt nya open source-kommandoradsverktyg designat för att revolutionera hur utvecklare utvärderar och testar AI-flöden. Detta kraftfulla verktyg ger företagsklassad flödesutvärdering till open source-communityn, komplett med avancerad rapportering och vår innovativa implementation av “LLM som Domare”.

Introduktion till FlowHunt CLI Toolkit

FlowHunt CLI Toolkit representerar ett betydande steg framåt inom testning och utvärdering av AI-arbetsflöden. Nu tillgängligt på GitHub, ger detta open source-verktyg utvecklare omfattande verktyg för:

  • Flödesutvärdering: Automatiserad testning och utvärdering av AI-arbetsflöden
  • Avancerad rapportering: Detaljerad analys med uppdelning av korrekta/felaktiga resultat
  • LLM som Domare: Sofistikerad AI-baserad utvärdering med vår egen FlowHunt-plattform
  • Prestandamått: Omfattande insikt i flödesbeteende och noggrannhet

Verktyget förkroppsligar vårt engagemang för transparens och community-drivet utvecklingsarbete, vilket gör avancerade AI-utvärderingstekniker tillgängliga för utvecklare världen över.

FlowHunt CLI Toolkit översikt

Kraften i LLM som Domare

En av de mest innovativa funktionerna i vårt CLI-verktyg är implementationen av “LLM som Domare”. Denna metod använder artificiell intelligens för att utvärdera kvaliteten och korrektheten i AI-genererade svar – i praktiken låter vi AI bedöma AI:s prestation med sofistikerad resonemangsförmåga.

Så byggde vi LLM som Domare med FlowHunt

Det som gör vår implementation unik är att vi använde FlowHunt själv för att skapa utvärderingsflödet. Denna meta-approach demonstrerar kraften och flexibiliteten i vår plattform samtidigt som den tillhandahåller ett robust utvärderingssystem. LLM som Domare-flödet består av flera sammankopplade komponenter:

1. Promptmall: Skapar utvärderings-prompten med specifika kriterier
2. Strukturerad utgångsgenerator: Bearbetar utvärderingen med ett LLM
3. Dataparser: Formaterar den strukturerade utgången för rapportering
4. Chattutgång: Presenterar de slutliga utvärderingsresultaten

Utvärderingsprompten

Kärnan i vårt LLM som Domare-system är en noggrant utformad prompt som säkerställer konsekventa och tillförlitliga utvärderingar. Här är den centrala promptmallen vi använder:

You will be given an ANSWER and REFERENCE couple.
Your task is to provide the following:
1. a 'total_rating' scoring: how close is the ANSWER to the REFERENCE
2. a binary label 'correctness' which can be either 'correct' or 'incorrect', which defines if the ANSWER is correct or not
3. and 'reasoning', which describes the reason behind your choice of scoring and correctness/incorrectness of ANSWER

An ANSWER is correct when it is the same as the REFERENCE in all facts and details, even if worded differently. the ANSWER is incorrect if it contradicts the REFERENCE, changes or omits details. its ok if the ANSWER has more details comparing to REFERENCE.

'total rating' is a scale of 1 to 4, where 1 means that the ANSWER is not the same as REFERENCE at all, and 4 means that the ANSWER is the same as the REFERENCE in all facts and details even if worded differently.

Here is the scale you should use to build your answer:
1: The ANSWER is contradicts the REFERENCE completely, adds additional claims, changes or omits details
2: The ANSWER points to the same topic but the details are omitted or changed completely comparing to REFERENCE
3: The ANSWER's references are not completely correct, but the details are somewhat close to the details mentioned in the REFERENCE. its ok, if there are added details in ANSWER comparing to REFERENCES.
4: The ANSWER is the same as the REFERENCE in all facts and details, even if worded differently. its ok, if there are added details in ANSWER comparing to REFERENCES. if there are sources available in REFERENCE, its exactly the same as ANSWER and is for sure mentioned in ANSWER

REFERENCE
===
{target_response}
===

ANSWER
===
{actual_response}
===

Denna prompt säkerställer att vår LLM-domare ger:

  • Numerisk poängsättning (skala 1–4) för kvantitativ analys
  • Binär korrekthet för tydliga godkänd/icke-godkänd-mått
  • Detaljerad motivering för transparens och felsökning

Flödesarkitektur: Så fungerar allt tillsammans

Vårt LLM som Domare-flöde demonstrerar sofistikerad AI-arbetsflödesdesign med FlowHunts visuella flödesbyggare. Så här samverkar komponenterna:

1. Inmatningshantering

Flödet börjar med en Chat Input-komponent som tar emot utvärderingsförfrågan med både det faktiska svaret och referenssvaret.

2. Promptkonstruktion

Promptmall-komponenten konstruerar dynamiskt utvärderingsprompten genom att:

  • Infoga referenssvaret i {target_response}-platsen
  • Infoga det faktiska svaret i {actual_response}-platsen
  • Tillämpa de omfattande utvärderingskriterierna

3. AI-utvärdering

Strukturerad utgångsgenerator behandlar prompten med ett valt LLM och genererar strukturerad utgång som innehåller:

  • total_rating: numerisk poäng från 1–4
  • correctness: binär korrekt/inkorrekt-klassificering
  • reasoning: detaljerad förklaring till utvärderingen

4. Utgångsformatering

Parse Data-komponenten formaterar den strukturerade utgången till läsbart format och Chattutgång-komponenten presenterar de slutliga utvärderingsresultaten.

Avancerade utvärderingsmöjligheter

LLM som Domare-systemet erbjuder flera avancerade funktioner som gör det särskilt effektivt för AI-flödesutvärdering:

Nyansrik förståelse

Till skillnad från enkel strängmatchning förstår vår LLM-domare:

  • Semantisk ekvivalens: Upptäcker när olika formuleringar uttrycker samma innebörd
  • Faktuell korrekthet: Identifierar motsägelser eller utelämnade detaljer
  • Fullständighet: Utvärderar om svaren innehåller all nödvändig information

Flexibel poängsättning

Den fyrgradiga betygsskalan möjliggör detaljerad utvärdering:

  • Poäng 4: Perfekt semantisk överensstämmelse med alla fakta bevarade
  • Poäng 3: Nära överensstämmelse med mindre avvikelser, men tillagda detaljer är okej
  • Poäng 2: Samma ämne men betydande detaljförändringar eller utelämnanden
  • Poäng 1: Fullständig motsägelse eller allvarliga faktafel

Transparent motivering

Varje utvärdering innehåller detaljerad motivering, vilket möjliggör att:

  • Förstå varför specifika poäng tilldelats
  • Felsöka flödets prestanda
  • Förbättra promptdesign utifrån utvärderingsfeedback

Omfattande rapporteringsfunktioner

CLI-verktyget genererar detaljerade rapporter som ger handlingsbara insikter om flödets prestation:

Korrekthetsanalys

  • Binär klassificering av alla svar som korrekta eller felaktiga
  • Procentuell noggrannhet över testfall
  • Identifiering av vanliga felmönster

Betygsfördelning

  • Statistisk analys av betyg (skala 1–4)
  • Genomsnittliga prestandamått
  • Variansanalys för att identifiera konsistensproblem

Detaljerade motiveringsloggar

  • Komplett motivering för varje utvärdering
  • Kategorisering av vanliga problem
  • Rekommendationer för flödesförbättringar

Kom igång med FlowHunt CLI Toolkit

Redo att börja utvärdera dina AI-flöden med professionella verktyg? Så här kommer du igång:

Snabbinstallation

Enradig installation (rekommenderas) för macOS och Linux:

curl -sSL https://raw.githubusercontent.com/yasha-dev1/flowhunt-toolkit/main/install.sh | bash

Detta kommer automatiskt att:

  • ✅ Installera alla beroenden
  • ✅ Ladda ner och installera FlowHunt Toolkit
  • ✅ Lägga till kommandot flowhunt i din PATH
  • ✅ Ställa in allt automatiskt

Manuell installation:

# Klona repot
git clone https://github.com/yasha-dev1/flowhunt-toolkit.git
cd flowhunt-toolkit

# Installera med pip
pip install -e .

Verifiera installationen:

flowhunt --help
flowhunt --version

Snabbstartsguide

1. Autentisering
Autentisera dig först mot FlowHunt API:

flowhunt auth

2. Lista dina flöden

flowhunt flows list

3. Utvärdera ett flöde Skapa en CSV-fil med din testdata:

flow_input,expected_output
"What is 2+2?","4"
"What is the capital of France?","Paris"

Kör utvärdering med LLM som Domare:

flowhunt evaluate your-flow-id path/to/test-data.csv --judge-flow-id your-judge-flow-id

4. Batchköra flöden

flowhunt batch-run your-flow-id input.csv --output-dir results/

Avancerade utvärderingsfunktioner

Utvärderingssystemet tillhandahåller omfattande analys:

flowhunt evaluate FLOW_ID TEST_DATA.csv \
  --judge-flow-id JUDGE_FLOW_ID \
  --output-dir eval_results/ \
  --batch-size 10 \
  --verbose

Funktioner inkluderar:

  • 📊 Omfattande statistik (medelvärde, median, std, kvartiler)
  • 📈 Analys av betygsfördelning
  • 📋 Automatisk export av resultat till CSV
  • 🎯 Beräkning av godkänd/icke-godkänd-frekvens
  • 🔍 Felföljning och rapportering

Integration med FlowHunt-plattformen

CLI-verktyget integreras sömlöst med FlowHunt-plattformen och gör det möjligt att:

  • Utvärdera flöden byggda i FlowHunts visuella editor
  • Använda avancerade LLM-modeller för utvärdering
  • Använda dina befintliga domarflöden för automatiserad utvärdering
  • Exportera resultat för vidare analys

Framtiden för AI-flödesutvärdering

Lanseringen av vårt CLI-verktyg är mer än bara ett nytt verktyg – det är en vision för framtiden där:

Kvalitet är mätbar: Avancerade utvärderingstekniker gör AI-prestationer kvantifierbara och jämförbara.

Testning är automatiserad: Omfattande testningsramverk minskar manuellt arbete och ökar tillförlitligheten.

Transparens är standard: Detaljerad motivering och rapportering gör AI:s beteende förståeligt och felsökningsbart.

Communityn driver innovation: Open source-verktyg möjliggör gemensam förbättring och kunskapsdelning.

Open Source-engagemang

Genom att göra FlowHunt CLI Toolkit open source visar vi vårt engagemang för:

  • Communityutveckling: Möjliggör att utvecklare världen över kan bidra och förbättra verktyget
  • Transparens: Gör våra utvärderingsmetoder öppna och granskbara
  • Tillgänglighet: Tillhandahåller företagsklassade verktyg till utvecklare oavsett budget
  • Innovation: Främjar samarbetsutveckling av nya utvärderingstekniker

Slutsats

FlowHunt CLI Toolkit med LLM som Domare representerar ett stort framsteg inom AI-flödesutvärdering. Genom att kombinera sofistikerad utvärderingslogik med omfattande rapportering och open source-tillgänglighet ger vi utvecklare verktygen att bygga bättre och mer tillförlitliga AI-system.

Meta-approachen att använda FlowHunt för att utvärdera FlowHunt-flöden demonstrerar plattformens mognad och flexibilitet, samtidigt som den tillhandahåller ett kraftfullt verktyg för hela AI-utvecklingscommunityn.

Oavsett om du bygger enkla chattbottar eller komplexa multiagentssystem ger FlowHunt CLI Toolkit dig den utvärderingsinfrastruktur du behöver för att säkerställa kvalitet, tillförlitlighet och kontinuerlig förbättring.

Redo att ta din AI-flödesutvärdering till nästa nivå? Besök vårt GitHub-repository för att komma igång med FlowHunt CLI Toolkit redan idag och upplev kraften med LLM som Domare själv.

Framtiden för AI-utveckling är här – och den är open source.

Vanliga frågor

Vad är FlowHunt CLI Toolkit?

FlowHunt CLI Toolkit är ett open source-kommandoradsverktyg för utvärdering av AI-flöden med omfattande rapporteringsfunktioner. Det innehåller funktioner som LLM som Domare, analys av korrekta/felaktiga resultat och detaljerade prestandamått.

Hur fungerar LLM som Domare i FlowHunt?

LLM som Domare använder ett sofistikerat AI-flöde byggt i FlowHunt för att utvärdera andra flöden. Det jämför faktiska svar mot referenssvar och ger betyg, korrekthetsbedömningar och detaljerad motivering för varje utvärdering.

Var kan jag få tag på FlowHunt CLI Toolkit?

FlowHunt CLI Toolkit är open source och finns på GitHub på https://github.com/yasha-dev1/flowhunt-toolkit. Du kan klona, bidra och använda det fritt för dina behov av AI-flödesutvärdering.

Vilken typ av rapporter genererar CLI-verktyget?

Verktyget genererar omfattande rapporter inklusive uppdelning av korrekta/felaktiga resultat, LLM som Domare-utvärderingar med betyg och motiveringar, prestandamått samt detaljerad analys av flödesbeteende över olika testfall.

Kan jag använda LLM som Domare-flödet för mina egna utvärderingar?

Ja! LLM som Domare-flödet är byggt med FlowHunts plattform och kan anpassas för olika utvärderingsscenarier. Du kan ändra promptmallen och utvärderingskriterierna för att passa dina specifika behov.

Yasha är en skicklig mjukvaruutvecklare som specialiserar sig på Python, Java och maskininlärning. Yasha skriver tekniska artiklar om AI, prompt engineering och utveckling av chattbotar.

Yasha Boroumand
Yasha Boroumand
CTO, FlowHunt

Prova FlowHunts avancerade flödesutvärdering

Bygg och utvärdera sofistikerade AI-arbetsflöden med FlowHunts plattform. Börja skapa flöden som kan bedöma andra flöden redan idag.

Lär dig mer

FlowHunt 2.4.1 introducerar Claude, Grok, Llama och mer
FlowHunt 2.4.1 introducerar Claude, Grok, Llama och mer

FlowHunt 2.4.1 introducerar Claude, Grok, Llama och mer

FlowHunt 2.4.1 introducerar stora nya AI-modeller inklusive Claude, Grok, Llama, Mistral, DALL-E 3 och Stable Diffusion, vilket utökar dina alternativ för exper...

2 min läsning
AI LLM +7
Skillnaden mellan Kör Flöde och Publicera Flöde
Skillnaden mellan Kör Flöde och Publicera Flöde

Skillnaden mellan Kör Flöde och Publicera Flöde

Lär dig när du ska använda funktionerna Kör Flöde och Publicera Flöde i FlowHunt AIStudio för att säkert testa och distribuera dina AI-arbetsflöden.

2 min läsning
AI Chatbot Debugging +2
Flöden
Flöden

Flöden

Flöden är hjärnan bakom allt i FlowHunt. Lär dig bygga dem med en visuell no-code-byggare, från att placera den första komponenten till webbplatsintegration, dr...

2 min läsning
AI No-Code +4