FlowHunt CLI Toolkit: Open-Source Flow-Bewertung mit LLM als Richter

FlowHunt CLI Toolkit: Open-Source Flow-Bewertung mit LLM als Richter

FlowHunt CLI Open Source LLM as Judge AI Evaluation

Wir freuen uns, die Veröffentlichung des FlowHunt CLI Toolkits bekannt zu geben – unseres neuen Open-Source-Kommandozeilen-Tools, das die Art und Weise, wie Entwickler KI-Flows bewerten und testen, revolutioniert. Dieses leistungsstarke Toolkit bringt Flow-Bewertungsfunktionen auf Enterprise-Niveau in die Open-Source-Community – inklusive fortschrittlichem Reporting und unserer innovativen „LLM als Richter“-Implementierung.

Vorstellung des FlowHunt CLI Toolkits

Das FlowHunt CLI Toolkit stellt einen bedeutenden Fortschritt im Testen und Bewerten von KI-Workflows dar. Ab sofort auf GitHub verfügbar, bietet dieses Open-Source-Toolkit Entwicklern umfassende Werkzeuge für:

  • Flow-Bewertung: Automatisiertes Testen und Bewerten von KI-Workflows
  • Erweitertes Reporting: Detaillierte Analysen mit Aufschlüsselung von richtigen/falschen Ergebnissen
  • LLM als Richter: Ausgereifte KI-basierte Bewertung mithilfe unserer eigenen FlowHunt-Plattform
  • Leistungsmetriken: Umfassende Einblicke in Flow-Verhalten und Genauigkeit

Das Toolkit steht für unser Bekenntnis zu Transparenz und Community-getriebener Entwicklung, indem es fortschrittliche KI-Bewertungstechniken Entwicklern weltweit zugänglich macht.

FlowHunt CLI Toolkit Übersicht

Die Stärke von LLM als Richter

Eines der innovativsten Features unseres CLI Toolkits ist die Implementierung von „LLM als Richter“. Dieser Ansatz nutzt künstliche Intelligenz, um die Qualität und Richtigkeit von KI-generierten Antworten zu bewerten – KI beurteilt also KI-Leistung mit anspruchsvollen Begründungsfähigkeiten.

Wie wir LLM als Richter mit FlowHunt gebaut haben

Was unsere Umsetzung besonders macht: Wir haben FlowHunt selbst genutzt, um den Bewertungs-Flow zu erstellen. Dieser Meta-Ansatz demonstriert die Leistungsfähigkeit und Flexibilität unserer Plattform und liefert gleichzeitig ein robustes Bewertungssystem. Der LLM-als-Richter-Flow besteht aus mehreren vernetzten Komponenten:

1. Prompt-Vorlage: Erstellt den Bewertungsprompt mit spezifischen Kriterien
2. Strukturierter Output-Generator: Verarbeitet die Bewertung mithilfe eines LLM
3. Datenparser: Formatiert den strukturierten Output für das Reporting
4. Chat-Ausgabe: Präsentiert die abschließenden Bewertungsergebnisse

Der Bewertungsprompt

Im Zentrum unseres LLM-als-Richter-Systems steht ein sorgfältig formulierter Prompt, der konsistente und zuverlässige Bewertungen sicherstellt. Hier ist die Kernvorlage, die wir verwenden:

You will be given an ANSWER and REFERENCE couple.
Your task is to provide the following:
1. a 'total_rating' scoring: how close is the ANSWER to the REFERENCE
2. a binary label 'correctness' which can be either 'correct' or 'incorrect', which defines if the ANSWER is correct or not
3. and 'reasoning', which describes the reason behind your choice of scoring and correctness/incorrectness of ANSWER

An ANSWER is correct when it is the same as the REFERENCE in all facts and details, even if worded differently. the ANSWER is incorrect if it contradicts the REFERENCE, changes or omits details. its ok if the ANSWER has more details comparing to REFERENCE.

'total rating' is a scale of 1 to 4, where 1 means that the ANSWER is not the same as REFERENCE at all, and 4 means that the ANSWER is the same as the REFERENCE in all facts and details even if worded differently.

Here is the scale you should use to build your answer:
1: The ANSWER is contradicts the REFERENCE completely, adds additional claims, changes or omits details
2: The ANSWER points to the same topic but the details are omitted or changed completely comparing to REFERENCE
3: The ANSWER's references are not completely correct, but the details are somewhat close to the details mentioned in the REFERENCE. its ok, if there are added details in ANSWER comparing to REFERENCES.
4: The ANSWER is the same as the REFERENCE in all facts and details, even if worded differently. its ok, if there are added details in ANSWER comparing to REFERENCES. if there are sources available in REFERENCE, its exactly the same as ANSWER and is for sure mentioned in ANSWER

REFERENCE
===
{target_response}
===

ANSWER
===
{actual_response}
===

Dieser Prompt stellt sicher, dass unser LLM-Richter Folgendes liefert:

  • Numerische Bewertung (Skala 1–4) für quantitative Analysen
  • Binäre Korrektheit zur klaren Pass/Fail-Einstufung
  • Detaillierte Begründung für Transparenz und Debugging

Flow-Architektur: So funktioniert alles zusammen

Unser LLM-als-Richter-Flow demonstriert anspruchsvolles KI-Workflow-Design mithilfe des visuellen Flow-Builders von FlowHunt. So greifen die Komponenten ineinander:

1. Eingabeverarbeitung

Der Flow beginnt mit einer Chat Input-Komponente, die die Bewertungsanfrage mit tatsächlicher Antwort und Referenzantwort erhält.

2. Prompt-Erstellung

Die Prompt-Vorlage-Komponente erstellt dynamisch den Bewertungsprompt, indem sie:

  • Die Referenzantwort in {target_response} einfügt
  • Die tatsächliche Antwort in {actual_response} einfügt
  • Die umfassenden Bewertungskriterien anwendet

3. KI-Bewertung

Der Strukturierte Output-Generator verarbeitet den Prompt mit einem ausgewählten LLM und erzeugt einen strukturierten Output mit:

  • total_rating: numerische Skala von 1–4
  • correctness: binäre Klassifikation korrekt/inkorrekt
  • reasoning: detaillierte Begründung der Bewertung

4. Output-Formatierung

Die Parse Data-Komponente formatiert den strukturierten Output lesbar, und die Chat Output-Komponente präsentiert die finalen Ergebnisse.

Erweiterte Bewertungsfunktionen

Das LLM-als-Richter-System bietet mehrere fortschrittliche Funktionen, die es besonders effektiv für die Bewertung von KI-Flows machen:

Nuanciertes Verständnis

Im Gegensatz zu einfachem String-Matching erkennt unser LLM-Richter:

  • Semantische Äquivalenz: Unterschiedliche Formulierungen mit gleicher Bedeutung
  • Faktengenauigkeit: Widersprüche oder Auslassungen in Details
  • Vollständigkeit: Ob alle notwendigen Informationen enthalten sind

Flexible Bewertungsskala

Die 4-Punkte-Skala ermöglicht eine feingliedrige Bewertung:

  • Punktzahl 4: Perfekte semantische Übereinstimmung, alle Fakten enthalten
  • Punktzahl 3: Hohe Übereinstimmung mit kleinen Abweichungen, zusätzliche Details sind ok
  • Punktzahl 2: Gleiches Thema, aber wesentliche Details fehlen oder sind verändert
  • Punktzahl 1: Kompletter Widerspruch oder schwere Faktenfehler

Transparente Begründungen

Jede Bewertung enthält eine detaillierte Begründung, sodass Sie:

  • Nachvollziehen können, warum bestimmte Bewertungen vergeben wurden
  • Flow-Leistungsprobleme debuggen
  • Prompt-Engineering basierend auf Bewertungsfeedback verbessern

Umfassende Reporting-Funktionen

Das CLI-Toolkit erstellt detaillierte Berichte, die umsetzbare Erkenntnisse zum Flow-Verhalten liefern:

Korrektheitsanalyse

  • Binäre Einordnung aller Antworten als korrekt oder inkorrekt
  • Prozentgenaue Trefferrate über alle Testfälle
  • Identifikation häufiger Fehlerarten

Bewertungsverteilung

  • Statistische Analyse der Bewertungen (1–4)
  • Durchschnittliche Leistungskennzahlen
  • Varianz-Analyse zur Erkennung von Konsistenzproblemen

Detaillierte Begründungsprotokolle

  • Vollständige Begründungen für jede Bewertung
  • Kategorisierung häufiger Fehler
  • Empfehlungen zur Flow-Verbesserung

Einstieg ins FlowHunt CLI Toolkit

Bereit, Ihre KI-Flows mit Profi-Tools zu bewerten? So starten Sie:

Schnelle Installation

One-Line-Installation (empfohlen) für macOS und Linux:

curl -sSL https://raw.githubusercontent.com/yasha-dev1/flowhunt-toolkit/main/install.sh | bash

Dies erledigt automatisch:

  • ✅ Installation aller Abhängigkeiten
  • ✅ Download und Installation des FlowHunt Toolkits
  • ✅ Hinzufügen des flowhunt-Befehls zu Ihrem PATH
  • ✅ Komplettes Setup

Manuelle Installation:

# Repository klonen
git clone https://github.com/yasha-dev1/flowhunt-toolkit.git
cd flowhunt-toolkit

# Mit pip installieren
pip install -e .

Installation überprüfen:

flowhunt --help
flowhunt --version

Schnellstart-Anleitung

1. Authentifizierung
Authentifizieren Sie sich zuerst mit Ihrer FlowHunt-API:

flowhunt auth

2. Flows auflisten

flowhunt flows list

3. Flow bewerten Erstellen Sie eine CSV-Datei mit Ihren Testdaten:

flow_input,expected_output
"What is 2+2?","4"
"What is the capital of France?","Paris"

Bewerten Sie mit LLM als Richter:

flowhunt evaluate your-flow-id path/to/test-data.csv --judge-flow-id your-judge-flow-id

4. Flows im Batch ausführen

flowhunt batch-run your-flow-id input.csv --output-dir results/

Erweiterte Bewertungsfunktionen

Das Bewertungssystem liefert umfassende Analysen:

flowhunt evaluate FLOW_ID TEST_DATA.csv \
  --judge-flow-id JUDGE_FLOW_ID \
  --output-dir eval_results/ \
  --batch-size 10 \
  --verbose

Features:

  • 📊 Umfassende Statistiken (Mittelwert, Median, Std, Quartile)
  • 📈 Analyse der Score-Verteilung
  • 📋 Automatischer CSV-Export der Ergebnisse
  • 🎯 Berechnung der Bestehensquote
  • 🔍 Fehlertracking und Reporting

Integration mit der FlowHunt Plattform

Das CLI-Toolkit integriert sich nahtlos in die FlowHunt-Plattform und ermöglicht Ihnen:

  • Bewertung von Flows aus dem visuellen Editor
  • Zugriff auf fortschrittliche LLM-Modelle für Bewertungen
  • Nutzung eigener Richter-Flows für automatisierte Bewertung
  • Export der Ergebnisse zur weiteren Analyse

Die Zukunft der KI-Flow-Bewertung

Die Veröffentlichung unseres CLI-Toolkits ist mehr als nur ein neues Werkzeug – sie steht für eine Vision der KI-Entwicklung, in der:

Qualität messbar ist: Fortschrittliche Bewertungsmethoden machen KI-Leistung quantifizierbar und vergleichbar.

Testen automatisiert ist: Umfassende Test-Frameworks reduzieren manuellen Aufwand und erhöhen die Zuverlässigkeit.

Transparenz Standard ist: Detaillierte Begründungen und Berichte machen KI-Verhalten verständlich und debugbar.

Die Community Innovation antreibt: Open-Source-Tools ermöglichen kollaborative Verbesserung und Wissenstransfer.

Open-Source-Engagement

Mit der Open-Source-Stellung des FlowHunt CLI Toolkits zeigen wir unser Engagement für:

  • Community-Entwicklung: Entwickler weltweit können beitragen und das Toolkit verbessern
  • Transparenz: Unsere Bewertungsmethoden sind offen und überprüfbar
  • Zugänglichkeit: Tools auf Enterprise-Niveau für Entwickler – unabhängig vom Budget
  • Innovation: Förderung kollaborativer Entwicklung neuer Bewertungstechniken

Fazit

Das FlowHunt CLI Toolkit mit LLM als Richter ist ein bedeutender Fortschritt für die Bewertung von KI-Flows. Durch die Verbindung aus anspruchsvoller Bewertungslogik, umfassendem Reporting und Open-Source-Zugänglichkeit ermöglichen wir Entwicklern, bessere und zuverlässigere KI-Systeme zu bauen.

Der Meta-Ansatz, FlowHunt zur Bewertung von FlowHunt-Flows zu nutzen, demonstriert die Reife und Flexibilität unserer Plattform und liefert ein mächtiges Werkzeug für die KI-Community.

Egal ob Sie einfache Chatbots oder komplexe Multi-Agenten-Systeme bauen: Das FlowHunt CLI Toolkit bietet die Bewertungsinfrastruktur, die Sie für Qualität, Zuverlässigkeit und kontinuierliche Verbesserung benötigen.

Bereit, Ihre KI-Flow-Bewertung auf das nächste Level zu heben? Besuchen Sie unser GitHub-Repository, um direkt mit dem FlowHunt CLI Toolkit zu starten, und erleben Sie die Leistungsfähigkeit von LLM als Richter selbst.

Die Zukunft der KI-Entwicklung ist da – und sie ist Open Source.

Häufig gestellte Fragen

Was ist das FlowHunt CLI Toolkit?

Das FlowHunt CLI Toolkit ist ein Open-Source-Kommandozeilen-Tool zur Bewertung von KI-Flows mit umfassenden Reporting-Funktionen. Es beinhaltet Features wie die Bewertung durch LLM als Richter, Analyse von richtigen/falschen Ergebnissen und detaillierte Leistungsmetriken.

Wie funktioniert LLM als Richter in FlowHunt?

LLM als Richter nutzt einen ausgefeilten KI-Flow, der innerhalb von FlowHunt aufgebaut wurde, um andere Flows zu bewerten. Es vergleicht tatsächliche Antworten mit Referenzantworten und liefert Bewertungen, Korrektheitsanalysen und detaillierte Begründungen für jede Bewertung.

Wo finde ich das FlowHunt CLI Toolkit?

Das FlowHunt CLI Toolkit ist Open Source und auf GitHub unter https://github.com/yasha-dev1/flowhunt-toolkit verfügbar. Sie können es frei klonen, nutzen und daran mitarbeiten, um Ihre KI-Flows zu bewerten.

Welche Berichte erstellt das CLI Toolkit?

Das Toolkit generiert umfassende Berichte, darunter Aufschlüsselungen von richtigen/falschen Ergebnissen, LLM-als-Richter-Bewertungen mit Wertungen und Begründungen, Leistungskennzahlen und detaillierte Analysen des Flow-Verhaltens über verschiedene Testfälle hinweg.

Kann ich den LLM-als-Richter-Flow für eigene Bewertungen nutzen?

Ja! Der LLM-als-Richter-Flow wurde mit der FlowHunt-Plattform erstellt und kann für verschiedene Bewertungsszenarien angepasst werden. Sie können die Prompt-Vorlage und die Bewertungskriterien nach Ihren Anforderungen modifizieren.

Yasha ist ein talentierter Softwareentwickler mit Spezialisierung auf Python, Java und Machine Learning. Yasha schreibt technische Artikel über KI, Prompt Engineering und Chatbot-Entwicklung.

Yasha Boroumand
Yasha Boroumand
CTO, FlowHunt

Testen Sie die fortschrittliche Flow-Bewertung von FlowHunt

Erstellen und bewerten Sie ausgefeilte KI-Workflows mit der FlowHunt-Plattform. Beginnen Sie noch heute mit der Entwicklung von Flows, die andere Flows bewerten können.

Mehr erfahren

MCP Discovery
MCP Discovery

MCP Discovery

Integrieren Sie FlowHunt mit MCP Discovery, um die automatische MCP Server-Analyse, die Generierung von Dokumentation in mehreren Formaten und die Optimierung v...

4 Min. Lesezeit
AI MCP Discovery +5
GitHub Actions MCP-Integration
GitHub Actions MCP-Integration

GitHub Actions MCP-Integration

Integrieren Sie FlowHunt mit GitHub Actions MCP, um das Management von CI/CD-Workflows zu optimieren, DevOps-Pipelines zu automatisieren und Teams mit KI-gestüt...

4 Min. Lesezeit
AI GitHub Actions +3