FlowHunt CLI Toolkit: Open-Source Flow-Bewertung mit LLM als Richter

FlowHunt CLI Open Source LLM as Judge AI Evaluation

Wir freuen uns, die Veröffentlichung des FlowHunt CLI Toolkits bekannt zu geben – unseres neuen Open-Source-Kommandozeilen-Tools, das die Art und Weise, wie Entwickler KI-Flows bewerten und testen, revolutioniert. Dieses leistungsstarke Toolkit bringt Flow-Bewertungsfunktionen auf Enterprise-Niveau in die Open-Source-Community – inklusive fortschrittlichem Reporting und unserer innovativen „LLM als Richter“-Implementierung.

Vorstellung des FlowHunt CLI Toolkits

Das FlowHunt CLI Toolkit stellt einen bedeutenden Fortschritt im Testen und Bewerten von KI-Workflows dar. Ab sofort auf GitHub verfügbar, bietet dieses Open-Source-Toolkit Entwicklern umfassende Werkzeuge für:

  • Flow-Bewertung: Automatisiertes Testen und Bewerten von KI-Workflows
  • Erweitertes Reporting: Detaillierte Analysen mit Aufschlüsselung von richtigen/falschen Ergebnissen
  • LLM als Richter: Ausgereifte KI-basierte Bewertung mithilfe unserer eigenen FlowHunt-Plattform
  • Leistungsmetriken: Umfassende Einblicke in Flow-Verhalten und Genauigkeit

Das Toolkit steht für unser Bekenntnis zu Transparenz und Community-getriebener Entwicklung, indem es fortschrittliche KI-Bewertungstechniken Entwicklern weltweit zugänglich macht.

FlowHunt CLI Toolkit Übersicht

Die Stärke von LLM als Richter

Eines der innovativsten Features unseres CLI Toolkits ist die Implementierung von „LLM als Richter“. Dieser Ansatz nutzt künstliche Intelligenz, um die Qualität und Richtigkeit von KI-generierten Antworten zu bewerten – KI beurteilt also KI-Leistung mit anspruchsvollen Begründungsfähigkeiten.

Wie wir LLM als Richter mit FlowHunt gebaut haben

Was unsere Umsetzung besonders macht: Wir haben FlowHunt selbst genutzt, um den Bewertungs-Flow zu erstellen. Dieser Meta-Ansatz demonstriert die Leistungsfähigkeit und Flexibilität unserer Plattform und liefert gleichzeitig ein robustes Bewertungssystem. Der LLM-als-Richter-Flow besteht aus mehreren vernetzten Komponenten:

1. Prompt-Vorlage: Erstellt den Bewertungsprompt mit spezifischen Kriterien
2. Strukturierter Output-Generator: Verarbeitet die Bewertung mithilfe eines LLM
3. Datenparser: Formatiert den strukturierten Output für das Reporting
4. Chat-Ausgabe: Präsentiert die abschließenden Bewertungsergebnisse

Der Bewertungsprompt

Im Zentrum unseres LLM-als-Richter-Systems steht ein sorgfältig formulierter Prompt, der konsistente und zuverlässige Bewertungen sicherstellt. Hier ist die Kernvorlage, die wir verwenden:

You will be given an ANSWER and REFERENCE couple.
Your task is to provide the following:
1. a 'total_rating' scoring: how close is the ANSWER to the REFERENCE
2. a binary label 'correctness' which can be either 'correct' or 'incorrect', which defines if the ANSWER is correct or not
3. and 'reasoning', which describes the reason behind your choice of scoring and correctness/incorrectness of ANSWER

An ANSWER is correct when it is the same as the REFERENCE in all facts and details, even if worded differently. the ANSWER is incorrect if it contradicts the REFERENCE, changes or omits details. its ok if the ANSWER has more details comparing to REFERENCE.

'total rating' is a scale of 1 to 4, where 1 means that the ANSWER is not the same as REFERENCE at all, and 4 means that the ANSWER is the same as the REFERENCE in all facts and details even if worded differently.

Here is the scale you should use to build your answer:
1: The ANSWER is contradicts the REFERENCE completely, adds additional claims, changes or omits details
2: The ANSWER points to the same topic but the details are omitted or changed completely comparing to REFERENCE
3: The ANSWER's references are not completely correct, but the details are somewhat close to the details mentioned in the REFERENCE. its ok, if there are added details in ANSWER comparing to REFERENCES.
4: The ANSWER is the same as the REFERENCE in all facts and details, even if worded differently. its ok, if there are added details in ANSWER comparing to REFERENCES. if there are sources available in REFERENCE, its exactly the same as ANSWER and is for sure mentioned in ANSWER

REFERENCE
===
{target_response}
===

ANSWER
===
{actual_response}
===

Dieser Prompt stellt sicher, dass unser LLM-Richter Folgendes liefert:

  • Numerische Bewertung (Skala 1–4) für quantitative Analysen
  • Binäre Korrektheit zur klaren Pass/Fail-Einstufung
  • Detaillierte Begründung für Transparenz und Debugging
Logo

Bereit, Ihr Geschäft zu erweitern?

Starten Sie heute Ihre kostenlose Testversion und sehen Sie innerhalb weniger Tage Ergebnisse.

Flow-Architektur: So funktioniert alles zusammen

Unser LLM-als-Richter-Flow demonstriert anspruchsvolles KI-Workflow-Design mithilfe des visuellen Flow-Builders von FlowHunt. So greifen die Komponenten ineinander:

1. Eingabeverarbeitung

Der Flow beginnt mit einer Chat Input-Komponente, die die Bewertungsanfrage mit tatsächlicher Antwort und Referenzantwort erhält.

2. Prompt-Erstellung

Die Prompt-Vorlage-Komponente erstellt dynamisch den Bewertungsprompt, indem sie:

  • Die Referenzantwort in {target_response} einfügt
  • Die tatsächliche Antwort in {actual_response} einfügt
  • Die umfassenden Bewertungskriterien anwendet

3. KI-Bewertung

Der Strukturierte Output-Generator verarbeitet den Prompt mit einem ausgewählten LLM und erzeugt einen strukturierten Output mit:

  • total_rating: numerische Skala von 1–4
  • correctness: binäre Klassifikation korrekt/inkorrekt
  • reasoning: detaillierte Begründung der Bewertung

4. Output-Formatierung

Die Parse Data-Komponente formatiert den strukturierten Output lesbar, und die Chat Output-Komponente präsentiert die finalen Ergebnisse.

Erweiterte Bewertungsfunktionen

Das LLM-als-Richter-System bietet mehrere fortschrittliche Funktionen, die es besonders effektiv für die Bewertung von KI-Flows machen:

Nuanciertes Verständnis

Im Gegensatz zu einfachem String-Matching erkennt unser LLM-Richter:

  • Semantische Äquivalenz: Unterschiedliche Formulierungen mit gleicher Bedeutung
  • Faktengenauigkeit: Widersprüche oder Auslassungen in Details
  • Vollständigkeit: Ob alle notwendigen Informationen enthalten sind

Flexible Bewertungsskala

Die 4-Punkte-Skala ermöglicht eine feingliedrige Bewertung:

  • Punktzahl 4: Perfekte semantische Übereinstimmung, alle Fakten enthalten
  • Punktzahl 3: Hohe Übereinstimmung mit kleinen Abweichungen, zusätzliche Details sind ok
  • Punktzahl 2: Gleiches Thema, aber wesentliche Details fehlen oder sind verändert
  • Punktzahl 1: Kompletter Widerspruch oder schwere Faktenfehler

Transparente Begründungen

Jede Bewertung enthält eine detaillierte Begründung, sodass Sie:

  • Nachvollziehen können, warum bestimmte Bewertungen vergeben wurden
  • Flow-Leistungsprobleme debuggen
  • Prompt-Engineering basierend auf Bewertungsfeedback verbessern

Umfassende Reporting-Funktionen

Das CLI-Toolkit erstellt detaillierte Berichte, die umsetzbare Erkenntnisse zum Flow-Verhalten liefern:

Korrektheitsanalyse

  • Binäre Einordnung aller Antworten als korrekt oder inkorrekt
  • Prozentgenaue Trefferrate über alle Testfälle
  • Identifikation häufiger Fehlerarten

Bewertungsverteilung

  • Statistische Analyse der Bewertungen (1–4)
  • Durchschnittliche Leistungskennzahlen
  • Varianz-Analyse zur Erkennung von Konsistenzproblemen

Detaillierte Begründungsprotokolle

  • Vollständige Begründungen für jede Bewertung
  • Kategorisierung häufiger Fehler
  • Empfehlungen zur Flow-Verbesserung

Einstieg ins FlowHunt CLI Toolkit

Bereit, Ihre KI-Flows mit Profi-Tools zu bewerten? So starten Sie:

Schnelle Installation

One-Line-Installation (empfohlen) für macOS und Linux:

curl -sSL https://raw.githubusercontent.com/yasha-dev1/flowhunt-toolkit/main/install.sh | bash

Dies erledigt automatisch:

  • ✅ Installation aller Abhängigkeiten
  • ✅ Download und Installation des FlowHunt Toolkits
  • ✅ Hinzufügen des flowhunt-Befehls zu Ihrem PATH
  • ✅ Komplettes Setup

Manuelle Installation:

# Repository klonen
git clone https://github.com/yasha-dev1/flowhunt-toolkit.git
cd flowhunt-toolkit

# Mit pip installieren
pip install -e .

Installation überprüfen:

flowhunt --help
flowhunt --version

Schnellstart-Anleitung

1. Authentifizierung
Authentifizieren Sie sich zuerst mit Ihrer FlowHunt-API:

flowhunt auth

2. Flows auflisten

flowhunt flows list

3. Flow bewerten Erstellen Sie eine CSV-Datei mit Ihren Testdaten:

flow_input,expected_output
"What is 2+2?","4"
"What is the capital of France?","Paris"

Bewerten Sie mit LLM als Richter:

flowhunt evaluate your-flow-id path/to/test-data.csv --judge-flow-id your-judge-flow-id

4. Flows im Batch ausführen

flowhunt batch-run your-flow-id input.csv --output-dir results/

Erweiterte Bewertungsfunktionen

Das Bewertungssystem liefert umfassende Analysen:

flowhunt evaluate FLOW_ID TEST_DATA.csv \
  --judge-flow-id JUDGE_FLOW_ID \
  --output-dir eval_results/ \
  --batch-size 10 \
  --verbose

Features:

  • 📊 Umfassende Statistiken (Mittelwert, Median, Std, Quartile)
  • 📈 Analyse der Score-Verteilung
  • 📋 Automatischer CSV-Export der Ergebnisse
  • 🎯 Berechnung der Bestehensquote
  • 🔍 Fehlertracking und Reporting

Integration mit der FlowHunt Plattform

Das CLI-Toolkit integriert sich nahtlos in die FlowHunt-Plattform und ermöglicht Ihnen:

  • Bewertung von Flows aus dem visuellen Editor
  • Zugriff auf fortschrittliche LLM-Modelle für Bewertungen
  • Nutzung eigener Richter-Flows für automatisierte Bewertung
  • Export der Ergebnisse zur weiteren Analyse

Die Zukunft der KI-Flow-Bewertung

Die Veröffentlichung unseres CLI-Toolkits ist mehr als nur ein neues Werkzeug – sie steht für eine Vision der KI-Entwicklung, in der:

Qualität messbar ist: Fortschrittliche Bewertungsmethoden machen KI-Leistung quantifizierbar und vergleichbar.

Testen automatisiert ist: Umfassende Test-Frameworks reduzieren manuellen Aufwand und erhöhen die Zuverlässigkeit.

Transparenz Standard ist: Detaillierte Begründungen und Berichte machen KI-Verhalten verständlich und debugbar.

Die Community Innovation antreibt: Open-Source-Tools ermöglichen kollaborative Verbesserung und Wissenstransfer.

Open-Source-Engagement

Mit der Open-Source-Stellung des FlowHunt CLI Toolkits zeigen wir unser Engagement für:

  • Community-Entwicklung: Entwickler weltweit können beitragen und das Toolkit verbessern
  • Transparenz: Unsere Bewertungsmethoden sind offen und überprüfbar
  • Zugänglichkeit: Tools auf Enterprise-Niveau für Entwickler – unabhängig vom Budget
  • Innovation: Förderung kollaborativer Entwicklung neuer Bewertungstechniken

Fazit

Das FlowHunt CLI Toolkit mit LLM als Richter ist ein bedeutender Fortschritt für die Bewertung von KI-Flows. Durch die Verbindung aus anspruchsvoller Bewertungslogik, umfassendem Reporting und Open-Source-Zugänglichkeit ermöglichen wir Entwicklern, bessere und zuverlässigere KI-Systeme zu bauen.

Der Meta-Ansatz, FlowHunt zur Bewertung von FlowHunt-Flows zu nutzen, demonstriert die Reife und Flexibilität unserer Plattform und liefert ein mächtiges Werkzeug für die KI-Community.

Egal ob Sie einfache Chatbots oder komplexe Multi-Agenten-Systeme bauen: Das FlowHunt CLI Toolkit bietet die Bewertungsinfrastruktur, die Sie für Qualität, Zuverlässigkeit und kontinuierliche Verbesserung benötigen.

Bereit, Ihre KI-Flow-Bewertung auf das nächste Level zu heben? Besuchen Sie unser GitHub-Repository , um direkt mit dem FlowHunt CLI Toolkit zu starten, und erleben Sie die Leistungsfähigkeit von LLM als Richter selbst.

Die Zukunft der KI-Entwicklung ist da – und sie ist Open Source.

Häufig gestellte Fragen

Yasha ist ein talentierter Softwareentwickler mit Spezialisierung auf Python, Java und Machine Learning. Yasha schreibt technische Artikel über KI, Prompt Engineering und Chatbot-Entwicklung.

Yasha Boroumand
Yasha Boroumand
CTO, FlowHunt

Testen Sie die fortschrittliche Flow-Bewertung von FlowHunt

Erstellen und bewerten Sie ausgefeilte KI-Workflows mit der FlowHunt-Plattform. Beginnen Sie noch heute mit der Entwicklung von Flows, die andere Flows bewerten können.

Mehr erfahren

LLM als Richter für KI-Evaluierung
LLM als Richter für KI-Evaluierung

LLM als Richter für KI-Evaluierung

Ein umfassender Leitfaden zur Verwendung von Large Language Models als Richter für die Bewertung von KI-Agenten und Chatbots. Erfahren Sie mehr über die LLM-as-...

9 Min. Lesezeit
AI LLM +10
LLM-Kontext
LLM-Kontext

LLM-Kontext

Beschleunigen Sie Ihre KI-gestützte Entwicklung durch die Integration von FlowHunts LLM-Kontext. Integrieren Sie nahtlos relevanten Code- und Dokumentenkontext ...

4 Min. Lesezeit
AI LLM +4
Root Signals
Root Signals

Root Signals

Integrieren Sie FlowHunt mit dem Root Signals MCP Server, um die Auswertung von LLM-Ausgaben zu automatisieren, die KI-Qualität zu überwachen und die Einhaltung...

4 Min. Lesezeit
AI Root Signals +4