mcp-vision Máy chủ MCP

mcp-vision Máy chủ MCP

Thêm thị giác máy tính vào quy trình AI của bạn với mcp-vision: phát hiện vật thể và phân tích hình ảnh dựa trên HuggingFace dưới dạng máy chủ MCP cho FlowHunt và trợ lý đa phương thức.

Máy chủ MCP “mcp-vision” làm gì?

Máy chủ MCP “mcp-vision” là một máy chủ Model Context Protocol (MCP) giúp xuất các mô hình thị giác máy tính của HuggingFace—như phát hiện vật thể zero-shot—thành các công cụ tăng cường năng lực thị giác cho các mô hình ngôn ngữ lớn hoặc mô hình ngôn ngữ-thị giác. Bằng cách kết nối trợ lý AI với các mô hình thị giác máy tính mạnh mẽ, mcp-vision cho phép thực hiện các tác vụ như phát hiện vật thể và phân tích hình ảnh trực tiếp trong quy trình phát triển. Điều này giúp các LLM và các khách hàng AI khác có thể truy vấn, xử lý, phân tích hình ảnh một cách lập trình, dễ dàng tự động hóa, tiêu chuẩn hóa và mở rộng các tương tác dựa trên thị giác trong ứng dụng. Máy chủ này phù hợp với cả môi trường GPU và CPU, được thiết kế để tích hợp dễ dàng với các nền tảng AI phổ biến.

Danh sách Prompt

Không có mẫu prompt cụ thể nào được đề cập trong tài liệu hoặc file repository.

Danh sách Tài nguyên

Không có tài nguyên MCP nào được ghi chú hoặc liệt kê trong repository.

Danh sách Công cụ

  • locate_objects
    Phát hiện và định vị các vật thể trong một hình ảnh bằng một trong các pipeline phát hiện vật thể zero-shot của HuggingFace. Đầu vào gồm đường dẫn ảnh, danh sách nhãn ứng viên và tên mô hình tùy chọn. Trả về danh sách các vật thể đã phát hiện theo định dạng tiêu chuẩn.

  • zoom_to_object
    Phóng to vào một vật thể cụ thể trong ảnh bằng cách cắt ảnh vào hộp giới hạn của vật thể có điểm phát hiện tốt nhất. Đầu vào gồm đường dẫn ảnh, nhãn cần tìm và tên mô hình tùy chọn. Trả về ảnh đã cắt hoặc None.

Các trường hợp sử dụng của máy chủ MCP này

  • Tự động phát hiện vật thể trong ảnh
    Lập trình viên có thể dùng mcp-vision để tự động phát hiện và định vị các vật thể trong ảnh, tối ưu hóa các tác vụ như gắn nhãn ảnh, kiểm duyệt nội dung hoặc tìm kiếm hình ảnh.
  • Tự động hóa quy trình dựa trên thị giác
    Kết hợp phát hiện vật thể vào các quy trình lớn hơn, như phân loại ảnh theo nội dung, tự động tạo báo cáo dựa trên vật thể đã phát hiện hoặc nâng cao công cụ hỗ trợ tiếp cận.
  • Khám phá hình ảnh tương tác
    Trợ lý AI có thể giúp người dùng phóng to vào vật thể cụ thể trong ảnh, hỗ trợ các tác vụ như kiểm tra chất lượng, phân tích ảnh y tế hoặc nhận dạng sản phẩm.
  • Bổ sung khả năng thị giác cho tác nhân AI
    LLM có thể suy luận và xử lý dữ liệu hình ảnh, cho phép các tương tác đa phương thức và phản hồi theo ngữ cảnh phong phú hơn trong các ứng dụng như chatbot, trợ lý số và công cụ nghiên cứu.

Hướng dẫn thiết lập

Windsurf

Không có hướng dẫn thiết lập cho Windsurf trong repository.

Claude

  1. Yêu cầu chuẩn bị:
    Đảm bảo bạn đã cài đặt Docker và nếu dùng GPU thì cần môi trường có hỗ trợ NVIDIA.
  2. Tạo hoặc sử dụng image Docker:
    • Tạo image local:
      git clone git@github.com:groundlight/mcp-vision.git
      cd mcp-vision
      make build-docker
      
    • Sử dụng image công khai (tùy chọn): Không cần build.
  3. Chỉnh sửa cấu hình:
    Mở file claude_desktop_config.json và thêm mục sau vào trường mcpServers:
    • Đối với GPU:
      "mcpServers": {
        "mcp-vision": {
          "command": "docker",
          "args": ["run", "-i", "--rm", "--runtime=nvidia", "--gpus", "all", "mcp-vision"],
          "env": {}
        }
      }
      
    • Đối với CPU:
      "mcpServers": {
        "mcp-vision": {
          "command": "docker",
          "args": ["run", "-i", "--rm", "mcp-vision"],
          "env": {}
        }
      }
      
    • Sử dụng image công khai (beta):
      "mcpServers": {
        "mcp-vision": {
          "command": "docker",
          "args": ["run", "-i", "--rm", "--runtime=nvidia", "--gpus", "all", "groundlight/mcp-vision:latest"],
          "env": {}
        }
      }
      
  4. Lưu và khởi động lại:
    Lưu cấu hình và khởi động lại Claude Desktop.
  5. Kiểm tra thiết lập:
    Đảm bảo mcp-vision hiển thị như một máy chủ MCP trong giao diện Claude Desktop.

Bảo mật API Key

  • Không có yêu cầu hoặc ví dụ về API key trong tài liệu.

Cursor

Không có hướng dẫn thiết lập cho Cursor trong repository.

Cline

Không có hướng dẫn thiết lập cho Cline trong repository.

Cách sử dụng MCP này trong flows

Sử dụng MCP trong FlowHunt

Để tích hợp các máy chủ MCP vào workflow FlowHunt của bạn, hãy bắt đầu bằng cách thêm thành phần MCP vào flow và kết nối nó với tác nhân AI của bạn:

FlowHunt MCP flow

Nhấp vào thành phần MCP để mở bảng cấu hình. Trong phần cấu hình hệ thống MCP, hãy chèn thông tin máy chủ MCP của bạn theo định dạng JSON sau:

{
  "mcp-vision": {
    "transport": "streamable_http",
    "url": "https://yourmcpserver.example/pathtothemcp/url"
  }
}

Sau khi cấu hình, tác nhân AI sẽ có thể sử dụng MCP này như một công cụ với đầy đủ chức năng và khả năng của nó. Hãy nhớ thay “mcp-vision” bằng tên thực tế của máy chủ MCP của bạn và thay URL bằng URL máy chủ MCP của bạn.


Tổng quan

PhầnTình trạngChi tiết/Ghi chú
Tổng quanCác mô hình thị giác HuggingFace dưới dạng công cụ cho LLM qua MCP
Danh sách PromptKhông có mẫu prompt nào được ghi chú
Danh sách Tài nguyênKhông có tài nguyên nào được liệt kê
Danh sách Công cụlocate_objects, zoom_to_object
Bảo mật API KeyKhông có hướng dẫn về API key
Hỗ trợ sampling (ít quan trọng khi đánh giá)Không đề cập

Hỗ trợ Roots: Không đề cập


Nhìn chung, mcp-vision cung cấp tích hợp hữu ích, trực tiếp với các mô hình thị giác HuggingFace nhưng thiếu tài liệu về tài nguyên, mẫu prompt hoặc các tính năng MCP nâng cao như roots hoặc sampling. Việc thiết lập được hướng dẫn rõ ràng cho Claude Desktop nhưng chưa có cho các nền tảng khác.

Ý kiến của chúng tôi

mcp-vision là một máy chủ MCP tập trung và thực tiễn để bổ sung trí tuệ thị giác cho quy trình AI, đặc biệt ở những môi trường hỗ trợ Docker. Điểm mạnh lớn nhất là các công cụ rõ ràng và thiết lập đơn giản cho Claude Desktop, nhưng sẽ hoàn thiện hơn nếu có tài liệu phong phú về tài nguyên, mẫu prompt và hỗ trợ thêm các nền tảng hoặc tính năng MCP nâng cao.

Điểm MCP

Có LICENSE✅ MIT
Có ít nhất một công cụ
Số lượng Forks0
Số lượng Stars23

Câu hỏi thường gặp

Máy chủ MCP mcp-vision là gì?

mcp-vision là một máy chủ Model Context Protocol mã nguồn mở giúp xuất các mô hình thị giác máy tính của HuggingFace dưới dạng công cụ cho trợ lý AI và LLM, cho phép phát hiện vật thể, cắt ảnh và nhiều hơn nữa trong quy trình AI của bạn.

mcp-vision cung cấp những công cụ nào?

mcp-vision cung cấp các công cụ như locate_objects (phát hiện vật thể zero-shot trong ảnh) và zoom_to_object (cắt ảnh vào vật thể đã phát hiện), có thể truy cập qua giao diện MCP.

Các trường hợp sử dụng chính của mcp-vision là gì?

Sử dụng mcp-vision để tự động phát hiện vật thể, tự động hóa quy trình dựa trên thị giác, khám phá hình ảnh tương tác và bổ sung khả năng suy luận, phân tích hình ảnh cho tác nhân AI.

Làm thế nào để thiết lập mcp-vision với FlowHunt?

Thêm thành phần MCP vào flow FlowHunt của bạn và chèn thông tin máy chủ mcp-vision vào bảng cấu hình bằng định dạng JSON được cung cấp. Đảm bảo máy chủ MCP của bạn đang chạy và có thể truy cập từ FlowHunt.

Tôi có cần API key cho mcp-vision không?

Theo tài liệu hiện tại, không cần API key hoặc thông tin xác thực đặc biệt để chạy mcp-vision. Chỉ cần đảm bảo môi trường Docker của bạn đã cấu hình và máy chủ có thể truy cập được.

Tích hợp mcp-vision với FlowHunt

Tăng cường sức mạnh cho tác nhân AI của bạn với phát hiện vật thể và phân tích hình ảnh bằng mcp-vision. Kết nối vào các flow FlowHunt của bạn để suy luận đa phương thức mượt mà.

Tìm hiểu thêm

Máy chủ Giao thức Ngữ cảnh Mô hình (MCP)
Máy chủ Giao thức Ngữ cảnh Mô hình (MCP)

Máy chủ Giao thức Ngữ cảnh Mô hình (MCP)

Máy chủ Giao thức Ngữ cảnh Mô hình (MCP) kết nối các trợ lý AI với nguồn dữ liệu ngoài, API và dịch vụ, giúp tích hợp quy trình phức tạp và quản lý bảo mật các ...

4 phút đọc
AI MCP +4
Tích Hợp Máy Chủ ModelContextProtocol (MCP)
Tích Hợp Máy Chủ ModelContextProtocol (MCP)

Tích Hợp Máy Chủ ModelContextProtocol (MCP)

Máy chủ ModelContextProtocol (MCP) hoạt động như một cầu nối giữa các tác nhân AI và các nguồn dữ liệu, API, dịch vụ bên ngoài, cho phép người dùng FlowHunt xây...

4 phút đọc
AI Integration +4
Tích Hợp Máy Chủ VMS MCP
Tích Hợp Máy Chủ VMS MCP

Tích Hợp Máy Chủ VMS MCP

Máy chủ VMS MCP kết nối các trợ lý AI của FlowHunt với hệ thống giám sát video thực tế, cho phép kiểm soát chương trình các phần mềm CCTV và VMS để tăng cường b...

5 phút đọc
AI Security +5