什么是 mcp-vision MCP 服务器？

mcp-vision 是一个开源的 Model Context Protocol 服务器，将 HuggingFace 计算机视觉模型作为工具提供给 AI 助手和大语言模型（LLM），实现目标检测、图像裁剪等功能，丰富您的 AI 工作流。

mcp-vision 提供哪些工具？

mcp-vision 提供如 locate_objects（用于图像的零样本目标检测）和 zoom_to_object（将图像裁剪到检测到的目标），可通过 MCP 接口访问。

mcp-vision 的主要应用场景有哪些？

可用于自动目标检测、基于视觉的流程自动化、交互式图像探索，以及增强 AI 智能体的视觉推理和分析能力。

如何将 mcp-vision 与 FlowHunt 配合使用？

在 FlowHunt 流程中添加 MCP 组件，并在配置面板中以提供的 JSON 格式填写 mcp-vision 服务器信息。确保您的 MCP 服务器已启动并可从 FlowHunt 访问。

使用 mcp-vision 需要 API 密钥吗？

根据当前文档，运行 mcp-vision 无需 API 密钥或特殊凭证。只需确保已配置好 Docker 环境且服务器可访问。

mcp-vision MCP 服务器

“mcp-vision” MCP 服务器能做什么？

“mcp-vision” MCP 服务器是一个 Model Context Protocol (MCP) 服务器，将 HuggingFace 计算机视觉模型（如零样本目标检测）作为工具，提升大语言模型或视觉-语言模型的视觉能力。通过将 AI 助手与强大的计算机视觉模型连接，mcp-vision 可在开发流程中直接实现目标检测与图像分析。这使得 LLM 及其他 AI 客户端能够以编程方式查询、处理并分析图像，更容易实现视觉交互的自动化、标准化与扩展。该服务器支持 GPU 和 CPU 环境，便于集成至主流 AI 平台。

提示词列表

文档与仓库文件中未提及具体提示词模板。

资源列表

仓库中未明确记录或列出 MCP 资源。

工具列表

locate_objects
通过 HuggingFace 提供的零样本目标检测管道，在图像中检测并定位对象。输入包括图像路径、候选标签列表，以及可选的模型名。返回标准格式的检测对象列表。
zoom_to_object
通过将图像裁剪到检测分数最高对象的边界框，放大图像中的特定对象。输入包括图像路径、要查找的标签，以及可选的模型名。返回裁剪后的图像或 None。

该 MCP 服务器的应用场景

图像中的自动目标检测
开发者可用 mcp-vision 以编程方式检测并定位图像中的对象，简化图像标注、内容审核和视觉搜索等任务。
基于视觉的工作流自动化
将目标检测集成到更大的工作流中，如按内容分类图片、根据检测结果自动生成报告、提升辅助工具等。
交互式图像探索
AI 助手可以帮助用户放大图像中的特定对象，支持质检、医学影像分析或产品识别等任务。
为 AI 智能体增强视觉能力
LLM 可对视觉数据进行推理和操作，实现更丰富的多模态交互和情境感知响应，适用于聊天机器人、数字助手和研究工具等应用。

如何部署

Windsurf

仓库中未提供 Windsurf 的配置说明。

Claude

前置条件：
确保已安装 Docker，如需使用 GPU，需具备 NVIDIA 支持环境。
构建或使用 Docker 镜像：
- 本地构建：
```
git clone git@github.com:groundlight/mcp-vision.git
cd mcp-vision
make build-docker
```
- 使用公共镜像（可选）：无需本地构建。

编辑配置：
打开 claude_desktop_config.json，在 mcpServers 下添加如下内容：

GPU 环境：

"mcpServers": {
  "mcp-vision": {
    "command": "docker",
    "args": ["run", "-i", "--rm", "--runtime=nvidia", "--gpus", "all", "mcp-vision"],
    "env": {}
  }
}

CPU 环境：

"mcpServers": {
  "mcp-vision": {
    "command": "docker",
    "args": ["run", "-i", "--rm", "mcp-vision"],
    "env": {}
  }
}

公共镜像（beta）：

"mcpServers": {
  "mcp-vision": {
    "command": "docker",
    "args": ["run", "-i", "--rm", "--runtime=nvidia", "--gpus", "all", "groundlight/mcp-vision:latest"],
    "env": {}
  }
}

保存并重启：
保存配置并重启 Claude Desktop。
验证配置：
在 Claude Desktop UI 中确认 mcp-vision 已作为 MCP 服务器可用。

安全 API 密钥

文档中未提供 API 密钥相关要求或示例。

Cursor

仓库中未提供 Cursor 的配置说明。

Cline

仓库中未提供 Cline 的配置说明。

如何在流程中使用该 MCP

在 FlowHunt 中使用 MCP

要将 MCP 服务器集成到 FlowHunt 工作流中，首先添加 MCP 组件并与您的 AI 智能体连接：

点击 MCP 组件，打开配置面板。在系统 MCP 配置部分，按以下 JSON 格式填写您的 MCP 服务器信息：

{
  "mcp-vision": {
    "transport": "streamable_http",
    "url": "https://yourmcpserver.example/pathtothemcp/url"
  }
}

配置完成后，AI 智能体即可作为工具调用该 MCP 的全部功能。请记得将 “mcp-vision” 替换为您实际的 MCP 服务器名称，并将 URL 改为您的 MCP 服务器地址。

概览

部分	是否可用	详细说明
概览	✅	HuggingFace 计算机视觉模型通过 MCP 作为 LLM 工具
提示词列表	⛔	未记录提示词模板
资源列表	⛔	未列出明确资源
工具列表	✅	locate_objects, zoom_to_object
安全 API 密钥	⛔	未说明 API 密钥相关内容
采样支持（评估时不重要）	⛔	未提及