Máy chủ Puppeteer Vision MCP

Web Scraping AI Automation Markdown

Liên hệ với chúng tôi để lưu trữ máy chủ MCP của bạn trong FlowHunt

FlowHunt cung cấp một lớp bảo mật bổ sung giữa các hệ thống nội bộ của bạn và các công cụ AI, mang lại cho bạn quyền kiểm soát chi tiết về những công cụ nào có thể truy cập từ các máy chủ MCP của bạn. Các máy chủ MCP được lưu trữ trong cơ sở hạ tầng của chúng tôi có thể được tích hợp liền mạch với chatbot của FlowHunt cũng như các nền tảng AI phổ biến như ChatGPT, Claude và các trình chỉnh sửa AI khác nhau.

Máy chủ “Puppeteer Vision” MCP làm gì?

Máy chủ Puppeteer Vision MCP cho phép trợ lý AI thu thập và chuyển đổi trang web sang định dạng Markdown bằng Puppeteer, Readability và Turndown. Nó cung cấp tương tác AI tiên tiến để tự động xử lý các yếu tố web như banner cookie, CAPTCHA, paywall, v.v., đảm bảo trích xuất nội dung mạnh mẽ ngay cả trên các trang web tương tác hoặc được bảo vệ. Máy chủ này cung cấp khả năng đó thông qua Giao thức Bối cảnh Mô hình (MCP), giúp dễ dàng tích hợp vào quy trình phát triển AI. Điều này cho phép các tác vụ như thu thập dữ liệu web tự động, tóm tắt nội dung và nhập dữ liệu được thực hiện liền mạch bởi LLM. Máy chủ dễ dàng triển khai qua npx, yêu cầu cấu hình tối thiểu và hỗ trợ cả giao tiếp stdio lẫn SSE để tích hợp linh hoạt.

Danh sách Prompt

Không có mẫu prompt nào được đề cập trong kho lưu trữ hoặc tài liệu.

Logo

Sẵn sàng phát triển doanh nghiệp của bạn?

Bắt đầu dùng thử miễn phí ngay hôm nay và xem kết quả trong vài ngày.

Danh sách Tài nguyên

Không có tài nguyên MCP cụ thể nào được liệt kê hoặc mô tả trong kho lưu trữ hoặc tài liệu.

Danh sách Công cụ

  • scrape-webpage: Thu thập dữ liệu một trang web tại URL chỉ định, sử dụng AI để tương tác và vượt qua các yếu tố tương tác (như banner cookie hoặc CAPTCHA), trích xuất nội dung chính bằng Readability và chuyển kết quả sang Markdown. Các tham số gồm:
    • url (string, bắt buộc): Trang web cần thu thập.
    • autoInteract (boolean, tùy chọn, mặc định: true): Có tự động xử lý các yếu tố tương tác không.
    • maxInteractionAttempts (số, tùy chọn, mặc định: 3): Số lần tương tác AI tối đa.
    • waitForNetworkIdle (boolean, tùy chọn, mặc định: true): Chờ mạng không còn hoạt động trước khi thu thập.

Các trường hợp sử dụng của MCP Server này

  • Thu thập dữ liệu web tự động để nhập tri thức
    Lập trình viên có thể trích xuất Markdown dễ đọc, định dạng tốt từ bất kỳ trang web nào, dễ dàng đưa nội dung cập nhật vào quy trình AI, cơ sở dữ liệu hoặc kho tri thức.
  • Vượt qua rào cản tương tác
    Tương tác điều khiển bởi AI có thể tự động vượt qua CAPTCHA, banner cookie và các rào cản khác, giúp trích xuất nội dung liền mạch từ các trang thường ngăn chặn tự động hóa.
  • Tóm tắt và phân tích nội dung
    Markdown đã trích xuất có thể được đưa vào LLM để tóm tắt, phân tích cảm xúc hoặc phân loại, đơn giản hóa nghiên cứu và xử lý dữ liệu.
  • Tự động hóa trình duyệt thời gian thực
    Lập trình viên có thể chạy công cụ ở chế độ hiển thị (không headless) cho mục đích gỡ lỗi, demo hoặc khi cần xác thực trực quan hoạt động trình duyệt.
  • Tích hợp vào pipeline dàn nhạc LLM
    máy chủ MCP, nó có thể được sử dụng như thành phần trong các orchestrator như Windsurf, Claude, Cursor và Cline, mở rộng khả năng tương tác web trực tiếp cho agent AI.

Hướng dẫn thiết lập

Windsurf

  1. Yêu cầu: Cài đặt Node.js và npm.

  2. Thiết lập môi trường: Tạo tệp .env hoặc export các biến môi trường cần thiết, bao gồm OPENAI_API_KEY.

  3. Sửa cấu hình: Tìm tệp cấu hình của Windsurf.

  4. Thêm Puppeteer Vision MCP: Thêm đoạn JSON sau:

    {
      "mcpServers": {
        "web-scraper": {
          "command": "npx",
          "args": ["-y", "puppeteer-vision-mcp-server"],
          "env": {
            "OPENAI_API_KEY": "YOUR_OPENAI_API_KEY_HERE"
          }
        }
      }
    }
    
  5. Lưu/Khởi động lại: Lưu tệp và khởi động lại Windsurf.

  6. Kiểm tra: Xem log hoặc giao diện để xác nhận máy chủ MCP đã chạy.

Bảo mật API Keys:
Lưu trữ bí mật trong biến môi trường (ví dụ, .env):

"env": {
  "OPENAI_API_KEY": "${OPENAI_API_KEY}"
}

Claude

  1. Yêu cầu: Đảm bảo Node.js và npm đã được cài đặt.

  2. Thiết lập môi trường: Chuẩn bị .env hoặc export OPENAI_API_KEY cùng các biến khác.

  3. Sửa cấu hình: Mở cấu hình MCP của Claude.

  4. Thêm MCP Server:

    {
      "mcpServers": {
        "web-scraper": {
          "command": "npx",
          "args": ["-y", "puppeteer-vision-mcp-server"],
          "env": {
            "OPENAI_API_KEY": "YOUR_OPENAI_API_KEY_HERE"
          }
        }
      }
    }
    
  5. Khởi động lại Claude: Áp dụng thay đổi và khởi động lại nền tảng.

  6. Kiểm tra: Xác nhận khởi động thành công.

Cursor

  1. Yêu cầu: Cài đặt Node.js và npm.

  2. Môi trường: Thiết lập .env với khóa API OpenAI.

  3. Sửa cấu hình Cursor: Thêm MCP server như sau:

    {
      "mcpServers": {
        "web-scraper": {
          "command": "npx",
          "args": ["-y", "puppeteer-vision-mcp-server"],
          "env": {
            "OPENAI_API_KEY": "YOUR_OPENAI_API_KEY_HERE"
          }
        }
      }
    }
    
  4. Lưu & Khởi động lại: Lưu thay đổi và khởi động lại Cursor.

  5. Kiểm tra log: Đảm bảo máy chủ đã chạy.

Cline

  1. Yêu cầu: Cài đặt Node.js và npm.

  2. Môi trường: Thiết lập hoặc export OPENAI_API_KEY.

  3. Cấu hình: Thêm vào cấu hình MCP của Cline:

    {
      "mcpServers": {
        "web-scraper": {
          "command": "npx",
          "args": ["-y", "puppeteer-vision-mcp-server"],
          "env": {
            "OPENAI_API_KEY": "YOUR_OPENAI_API_KEY_HERE"
          }
        }
      }
    }
    
  4. Khởi động lại Cline: Áp dụng và khởi động lại.

  5. Xác nhận: Kiểm tra máy chủ đã truy cập được.

Lưu ý: Bảo mật API key bằng biến môi trường và không ghi cứng bí mật vào tệp cấu hình.

Cách sử dụng MCP này trong flows

Sử dụng MCP trong FlowHunt

Để tích hợp máy chủ MCP vào quy trình FlowHunt của bạn, hãy thêm thành phần MCP vào flow và kết nối với tác nhân AI:

FlowHunt MCP flow

Nhấn vào thành phần MCP để mở bảng cấu hình. Trong phần cấu hình hệ thống MCP, chèn thông tin máy chủ MCP bằng định dạng JSON sau:

{
  "puppeteer-vision": {
    "transport": "streamable_http",
    "url": "https://yourmcpserver.example/pathtothemcp/url"
  }
}

Sau khi cấu hình, tác nhân AI có thể sử dụng MCP này như một công cụ với đầy đủ chức năng và khả năng. Lưu ý thay “puppeteer-vision” thành tên thực tế của máy chủ MCP và thay URL bằng URL máy chủ của bạn.


Tổng quan

PhầnTình trạngChi tiết/Ghi chú
Tổng quanĐã trình bày trong README.
Danh sách PromptKhông tìm thấy mẫu prompt nào.
Danh sách Tài nguyênKhông mô tả tài nguyên MCP cụ thể.
Danh sách Công cụCông cụ scrape-webpage, chi tiết trong README.
Hướng dẫn bảo mật API KeyCó hướng dẫn cho .env và biến môi trường.
Hỗ trợ Sampling (không quan trọng khi đánh giá)Không đề cập đến hỗ trợ sampling.

| Hỗ trợ Roots | ⛔ | Không đề cập đến Roots. |


Dựa trên các mục trên, Máy chủ Puppeteer Vision MCP cung cấp một công cụ thu thập dữ liệu web mạnh mẽ, tài liệu tốt và hướng dẫn bảo mật, nhưng thiếu đa công cụ, mẫu prompt, tài nguyên và các tính năng MCP nâng cao như roots hoặc sampling. Thiết kế một công cụ, một mục đích giúp tính ổn định cao cho trường hợp sử dụng, nhưng giới hạn khả năng mở rộng.

Ý kiến của chúng tôi

Điểm MCP: 5/10
Máy chủ MCP này có tài liệu tốt, hữu ích cho mục đích cụ thể và dễ thiết lập, nhưng thiếu mẫu prompt, tài nguyên rõ ràng và các tính năng MCP nâng cao (roots, sampling) nên bị hạn chế về tính linh hoạt và tích hợp hệ sinh thái.

Điểm MCP

Có LICENSE
Có ít nhất một công cụ
Số lượng Forks5
Số lượng Stars12

Câu hỏi thường gặp

Bắt đầu với Puppeteer Vision MCP

Tăng tốc quy trình AI với thu thập dữ liệu web và trích xuất nội dung tiên tiến. Thiết lập Máy chủ Puppeteer Vision MCP trong vài phút và bắt đầu đưa dữ liệu web trực tiếp vào pipeline AI của bạn.

Tìm hiểu thêm

mcp-vision Máy chủ MCP
mcp-vision Máy chủ MCP

mcp-vision Máy chủ MCP

Máy chủ mcp-vision MCP kết nối các mô hình thị giác máy tính của HuggingFace—như phát hiện vật thể zero-shot—với FlowHunt và các nền tảng AI khác, giúp các LLM ...

6 phút đọc
AI Computer Vision +5
Puppeteer Vision
Puppeteer Vision

Puppeteer Vision

Tích hợp FlowHunt với Máy chủ MCP Puppeteer Vision để tự động thu thập dữ liệu web, xử lý cookie, CAPTCHA, paywall và chuyển đổi trang web thành markdown có cấu...

6 phút đọc
AI Web Scraping +4
Máy chủ Playwright MCP
Máy chủ Playwright MCP

Máy chủ Playwright MCP

Playwright MCP Server trao quyền cho các tác nhân AI và nhà phát triển với tự động hóa trình duyệt và tương tác API tiên tiến, cho phép tích hợp liền mạch trong...

6 phút đọc
Automation AI Integration +5