"什么是 FlowHunt CLI 工具包？"

"FlowHunt CLI 工具包是一款开源命令行工具，用于对 AI 流程进行评估并生成详尽报告。其功能包括：大语言模型担任评审、正误结果分析及详细性能指标。"

"在 FlowHunt 中“大语言模型担任评审”是如何工作的？"

"大语言模型担任评审，利用 FlowHunt 内部构建的智能流程对其它流程进行评估。它将实际响应与参考答案进行比对，给出评分、正误判定及详细理由。"

"我可以在哪里获取 FlowHunt CLI 工具包？"

"FlowHunt CLI 工具包是开源的，可在 GitHub（https://github.com/yasha-dev1/flowhunt-toolkit）获取。你可以自由克隆、贡献及用于 AI 流程评估需求。"

"CLI 工具包会生成哪些类型的报告？"

"该工具包会生成全面的报告，包括正误结果分布、大语言模型评审评分与理由、性能指标，以及针对不同测试用例的流程行为详细分析。"

"我能否将“大语言模型担任评审”流程用于自己的评估？"

"可以！大语言模型评审流是基于 FlowHunt 平台构建的，可灵活适配各种评估场景。你可以根据自身需求修改提示模板和评估标准。"

FlowHunt CLI 工具包：用大语言模型担任评审的开源流程评估

FlowHunt 全新的开源 CLI 工具包实现了以大语言模型为评审的全流程评估，支持详细报告及 AI 工作流自动化质量检测。

FlowHunt CLI Open Source LLM as Judge AI Evaluation

我们非常高兴地宣布推出 FlowHunt CLI 工具包 —— 这是一款全新的开源命令行工具，旨在彻底改变开发者评估和测试 AI 流程的方式。这款强大的工具包将企业级流程评估能力带入开源社区，集成了高级报告和创新的“大语言模型担任评审”功能。

FlowHunt CLI 工具包简介

FlowHunt CLI 工具包是 AI 工作流测试与评估领域的重要进步。现已在 GitHub 开源，面向开发者提供全方位的开发利器：

流程评估：自动化测试与评估 AI 工作流
高级报告：正误结果详细分解分析
大语言模型担任评审：基于 FlowHunt 平台的智能化评估
性能指标：全方位流程行为与准确性洞察

该工具包展现了我们对透明化和社区共建的承诺，让先进的 AI 评估技术惠及全球开发者。

大语言模型担任评审的力量

CLI 工具包最具创新性的功能之一，就是“大语言模型担任评审”。这种方式利用人工智能对 AI 生成的响应质量和正确性进行评判——让 AI 以强大的推理能力评判 AI 的表现。

我们如何用 FlowHunt 构建“大语言模型担任评审”

我们的实现独特之处在于，评审流本身也是用 FlowHunt 构建的。这种“元”方法不仅展示了平台的强大和灵活性，也带来了坚实可靠的评估系统。大语言模型评审流包含若干相互联结的组件：

1. 提示模板：根据特定标准生成评估提示
2. 结构化输出生成器：用 LLM 处理评估
3. 数据解析器：为报告格式化结构化输出
4. 聊天输出：呈现最终评估结果

评审提示词

我们的“大语言模型担任评审”体系核心是精心设计的提示词，确保评估一致且可靠。以下是我们使用的核心提示模板：

You will be given an ANSWER and REFERENCE couple.
Your task is to provide the following:
1. a 'total_rating' scoring: how close is the ANSWER to the REFERENCE
2. a binary label 'correctness' which can be either 'correct' or 'incorrect', which defines if the ANSWER is correct or not
3. and 'reasoning', which describes the reason behind your choice of scoring and correctness/incorrectness of ANSWER

An ANSWER is correct when it is the same as the REFERENCE in all facts and details, even if worded differently. the ANSWER is incorrect if it contradicts the REFERENCE, changes or omits details. its ok if the ANSWER has more details comparing to REFERENCE.

'total rating' is a scale of 1 to 4, where 1 means that the ANSWER is not the same as REFERENCE at all, and 4 means that the ANSWER is the same as the REFERENCE in all facts and details even if worded differently.

Here is the scale you should use to build your answer:
1: The ANSWER is contradicts the REFERENCE completely, adds additional claims, changes or omits details
2: The ANSWER points to the same topic but the details are omitted or changed completely comparing to REFERENCE
3: The ANSWER's references are not completely correct, but the details are somewhat close to the details mentioned in the REFERENCE. its ok, if there are added details in ANSWER comparing to REFERENCES.
4: The ANSWER is the same as the REFERENCE in all facts and details, even if worded differently. its ok, if there are added details in ANSWER comparing to REFERENCES. if there are sources available in REFERENCE, its exactly the same as ANSWER and is for sure mentioned in ANSWER

REFERENCE
===
{target_response}
===

ANSWER
===
{actual_response}
===

该提示词确保我们的 LLM 评审员能够：

数值评分（1-4 分制），便于量化分析
二元正误分类，实现清晰的通过/未通过判定
详细理由说明，提升透明度和可溯源性

流程架构：如何协同工作

“大语言模型担任评审”流程展示了 FlowHunt 可视化流程构建器的强大设计能力。其各组件协同如下：

1. 输入处理

流程以 聊天输入 组件开始，接收包含实际响应和参考答案的评估请求。

2. 提示词构建

提示模板 组件动态构建评估提示词：

将参考答案插入 {target_response} 占位符
将实际响应插入 {actual_response} 占位符
应用全面的评估标准

3. AI 评估

结构化输出生成器 用选定的 LLM 处理提示词，生成结构化输出，包括：

total_rating：1-4 的数值评分
correctness：正误二元分类
reasoning：详细评估解释

4. 输出格式化

数据解析 组件将结构化输出格式化为可读内容，聊天输出 组件则呈现最终评估结果。

高级评估能力

“大语言模型担任评审”系统具备多项先进能力，使其在 AI 流程评估中独具优势：

细致理解

相比简单的字符串比对，我们的 LLM 评审员能够理解：

语义等价：识别不同表述下含义是否一致
事实准确性：发现细节上的矛盾或遗漏
完整性：判断答案是否包含全部必要信息

灵活评分

四分制评分体系实现细致评估：

4 分：语义完全一致，事实无遗漏
3 分：大致吻合，允许有补充细节
2 分：话题相关但细节变化大或有遗漏
1 分：完全矛盾或重大事实错误

透明理由

每次评估都包含详细理由，便于：

理解为何获得特定分数
调试流程性能
根据评估反馈优化提示工程

全面的报告功能

CLI 工具包可生成详尽的报告，助力流程改进：

正确性分析

所有响应的正误二元分类
各测试用例的准确率统计
常见失败模式识别

评分分布

评分（1-4 分制）统计分析
平均性能指标
方差分析，定位一致性问题

详细理由日志

每次评估的完整理由
常见问题归类
给予流程改进建议

快速上手 FlowHunt CLI 工具包

准备好用专业工具评估你的 AI 流程了吗？速览如下：

快速安装

一行命令安装（推荐，支持 macOS 和 Linux）：

curl -sSL https://raw.githubusercontent.com/yasha-dev1/flowhunt-toolkit/main/install.sh | bash

此命令将自动：

✅ 安装所有依赖
✅ 下载并安装 FlowHunt 工具包
✅ 将 flowhunt 命令加入 PATH
✅ 自动完成全部配置

手动安装：

# 克隆仓库
git clone https://github.com/yasha-dev1/flowhunt-toolkit.git
cd flowhunt-toolkit

# 用 pip 安装
pip install -e .

验证安装：

flowhunt --help
flowhunt --version

快速使用指南

1. 认证登录 首先用 FlowHunt API 认证身份：

flowhunt auth

2. 列出你的流程

flowhunt flows list

3. 评估某个流程 准备测试数据 CSV 文件：

flow_input,expected_output
"What is 2+2?","4"
"What is the capital of France?","Paris"

调用大语言模型评审流进行评估：

flowhunt evaluate your-flow-id path/to/test-data.csv --judge-flow-id your-judge-flow-id

4. 批量执行流程

flowhunt batch-run your-flow-id input.csv --output-dir results/

高级评估功能

评估系统支持全面分析：

flowhunt evaluate FLOW_ID TEST_DATA.csv \
  --judge-flow-id JUDGE_FLOW_ID \
  --output-dir eval_results/ \
  --batch-size 10 \
  --verbose

功能包括：

📊 全面统计（均值、中位数、标准差、四分位）
📈 评分分布分析
📋 自动导出 CSV 结果
🎯 通过/未通过率计算
🔍 错误追踪与报告

与 FlowHunt 平台集成

CLI 工具包可无缝集成 FlowHunt 平台，实现：

评估 FlowHunt 可视化编辑器构建的流程
使用高级 LLM 模型进行评估
利用自定义评审流自动化评估
导出结果便于进一步分析

AI 流程评估的未来

CLI 工具包的发布不仅仅是一个新工具，更代表了 AI 开发未来的愿景：

质量可衡量：先进评估技术让 AI 表现可量化、可对比。

测试自动化：完善的测试框架降低人工成本，提升可靠性。

透明标准化：详尽理由与报告让 AI 行为可理解、可调试。

社区驱动创新：开源工具推动协作进步与知识共享。

开源承诺

开源 FlowHunt CLI 工具包，体现了我们的承诺：

社区共建：全球开发者可共同贡献与完善工具包
透明化：评估方法学全公开可审计
可及性：企业级工具无门槛惠及所有开发者
创新性：促进新型评估技术的协作研发

结语

FlowHunt CLI 工具包及“大语言模型担任评审”功能是 AI 流程评估领域的重要突破。它结合了先进的评估逻辑、全面的报告系统与开源易用性，助力开发者构建更优质、更可靠的 AI 系统。

用 FlowHunt 评估 FlowHunt 流程的“元”方案，展现了平台的成熟与灵活，也为更广泛的 AI 开发社区提供了强大工具。

无论你在开发简单聊天机器人还是复杂多智能体系统，FlowHunt CLI 工具包都能为你的流程评估保驾护航，实现质量、可靠性和持续优化。

准备好提升你的 AI 流程评估了吗？ 访问我们的 GitHub 仓库，立即体验 FlowHunt CLI 工具包，亲身感受大语言模型担任评审的强大。

AI 开发的未来已来——而且是开源的。

常见问题

什么是 FlowHunt CLI 工具包？: FlowHunt CLI 工具包是一款开源命令行工具，用于对 AI 流程进行评估并生成详尽报告。其功能包括：大语言模型担任评审、正误结果分析及详细性能指标。
在 FlowHunt 中“大语言模型担任评审”是如何工作的？: 大语言模型担任评审，利用 FlowHunt 内部构建的智能流程对其它流程进行评估。它将实际响应与参考答案进行比对，给出评分、正误判定及详细理由。
我可以在哪里获取 FlowHunt CLI 工具包？: FlowHunt CLI 工具包是开源的，可在 GitHub（https://github.com/yasha-dev1/flowhunt-toolkit）获取。你可以自由克隆、贡献及用于 AI 流程评估需求。
CLI 工具包会生成哪些类型的报告？: 该工具包会生成全面的报告，包括正误结果分布、大语言模型评审评分与理由、性能指标，以及针对不同测试用例的流程行为详细分析。
我能否将“大语言模型担任评审”流程用于自己的评估？: 可以！大语言模型评审流是基于 FlowHunt 平台构建的，可灵活适配各种评估场景。你可以根据自身需求修改提示模板和评估标准。

试用 FlowHunt 高级流程评估

使用 FlowHunt 平台构建与评估智能 AI 工作流，现在就开始创建可判别其他流程的评审流吧。

开始构建查看 CLI 工具包

了解更多

FlowHunt 2.4.1 引入 Claude、Grok、Llama 等全新模型

FlowHunt 2.4.1 推出了多项全新 AI 模型，包括 Claude、Grok、Llama、Mistral、DALL-E 3 和 Stable Diffusion，为您的 AI 项目带来更多实验、创意和自动化的选择。...

May 30, 2025 1 分钟阅读

AI LLM +7

FlowHunt 2.6.12：Slack集成、意图分类及更多新功能

FlowHunt 2.6.12引入了Slack集成、意图分类和Gemini模型，增强了AI聊天机器人的功能、客户洞察和团队工作流程。

May 30, 2025 1 分钟阅读

FlowHunt AI Chatbot +5

流程

在 FlowHunt 中，流程是一切的核心。了解如何通过零代码可视化搭建器从放置第一个组件到网站集成、部署聊天机器人，以及利用预制模板来构建流程。...

May 30, 2025 1 分钟阅读

AI No-Code +4

FlowHunt CLI 工具包：用大语言模型担任评审的开源流程评估

FlowHunt CLI 工具包简介

大语言模型担任评审的力量

我们如何用 FlowHunt 构建“大语言模型担任评审”

评审提示词

流程架构：如何协同工作

1. 输入处理

2. 提示词构建

3. AI 评估

4. 输出格式化

高级评估能力

细致理解

灵活评分

透明理由

全面的报告功能

正确性分析

评分分布

详细理由日志

快速上手 FlowHunt CLI 工具包

快速安装

快速使用指南

高级评估功能

与 FlowHunt 平台集成

AI 流程评估的未来

开源承诺

结语

常见问题

试用 FlowHunt 高级流程评估

了解更多

FlowHunt 2.4.1 引入 Claude、Grok、Llama 等全新模型

FlowHunt 2.6.12：Slack集成、意图分类及更多新功能

流程

Cookie 设置

必要的 Cookie

分析 Cookie