Máy chủ Kokoro TTS MCP

Máy chủ Kokoro TTS MCP

Kokoro TTS MCP Server mang lại khả năng chuyển văn bản thành giọng nói tự nhiên, tùy chỉnh cho ứng dụng AI của bạn, hỗ trợ lưu trữ âm thanh cục bộ và đám mây, lý tưởng cho hỗ trợ tiếp cận, tự động hóa và sáng tạo nội dung.

Máy chủ “Kokoro TTS” MCP làm gì?

Kokoro Text to Speech (TTS) MCP Server là một máy chủ Model Context Protocol (MCP) cho phép trợ lý AI và client tạo âm thanh giọng nói chất lượng cao từ đầu vào văn bản. Bằng cách kết nối luồng công việc AI với máy chủ này, người dùng có thể chuyển đổi văn bản thành tệp .mp3 và tùy chọn tải lên Amazon S3 hoặc kho lưu trữ tương thích. Kokoro TTS tận dụng các mô hình tiên tiến (qua HuggingFace spaces và trọng số ONNX) để cung cấp giọng nói, tốc độ và ngôn ngữ tùy chỉnh, giúp dễ dàng tích hợp chức năng chuyển văn bản thành giọng nói vào môi trường phát triển, chatbot hoặc pipeline tự động hóa. Máy chủ MCP này đặc biệt hữu ích cho các trường hợp cần tổng hợp giọng nói cho hỗ trợ tiếp cận, thông báo hoặc sáng tạo nội dung.

Danh sách Prompt

Không có mẫu prompt rõ ràng nào được ghi lại trong kho lưu trữ.

Danh sách Tài nguyên

Không có tài nguyên cụ thể nào được ghi lại trong các tệp kho lưu trữ hoặc README.

Danh sách Công cụ

  • Chuyển văn bản thành giọng nói
    Chuyển đổi văn bản đầu vào thành tệp âm thanh .mp3 bằng mô hình Kokoro TTS. Hỗ trợ cấu hình giọng nói, tốc độ và ngôn ngữ.
  • Tải lên S3
    Tùy chọn tải các tệp .mp3 đã tạo lên Amazon S3 bucket/thư mục chỉ định nếu được bật trong cấu hình.
  • Quản lý MP3 cục bộ
    Lưu trữ các tệp .mp3 đã tạo vào thư mục cục bộ chỉ định và có thể tự động xóa sau khi tải lên hoặc hết thời gian lưu trữ.

Trường hợp sử dụng của MCP Server này

  • Giải pháp hỗ trợ tiếp cận:
    Tích hợp Kokoro TTS vào ứng dụng nhằm cung cấp phản hồi giọng nói cho người khiếm thị hoặc đọc nội dung thành tiếng.
  • Thông báo giọng nói:
    Tự động hóa cảnh báo âm thanh trong hệ thống giám sát hoặc IoT bằng cách chuyển thông điệp sự kiện thành âm thanh giọng nói.
  • Sáng tạo nội dung:
    Tạo voiceover cho video, podcast hoặc media tương tác trực tiếp từ kịch bản viết.
  • AI hội thoại/Chatbot:
    Giúp chatbot phản hồi bằng giọng nói, tăng tương tác người dùng trong hỗ trợ khách hàng hoặc trợ lý ảo.
  • Lưu trữ âm thanh & tuân thủ:
    Tạo bản ghi âm của các trao đổi văn bản để phục vụ tuân thủ hoặc lưu trữ.

Hướng dẫn thiết lập

Windsurf

  1. Đảm bảo bạn đã có uv và tải xuống tất cả các tệp mô hình Kokoro.
  2. Sao chép kho lưu trữ Kokoro TTS MCP về máy của bạn.
  3. Chỉnh sửa tệp cấu hình Windsurf để thêm máy chủ Kokoro TTS MCP.
  4. Thêm đoạn JSON sau vào đối tượng mcpServers của bạn:
    {
      "kokoro-tts-mcp": {
        "command": "uv",
        "args": [
          "--directory",
          "/path/toyourlocal/kokoro-tts-mcp",
          "run",
          "mcp-tts.py"
        ],
        "env": {
          "TTS_VOICE": "af_heart",
          "TTS_SPEED": "1.0",
          "TTS_LANGUAGE": "en-us",
          "AWS_ACCESS_KEY_ID": "",
          "AWS_SECRET_ACCESS_KEY": "",
          "AWS_REGION": "us-east-1",
          "AWS_S3_FOLDER": "mp3",
          "S3_ENABLED": "true",
          "MP3_FOLDER": "/path/to/mp3"
        }
      }
    }
    
  5. Lưu cấu hình và khởi động lại Windsurf.

Claude

  1. Cài đặt các điều kiện tiên quyết (Node.js, uv, mô hình Kokoro).
  2. Thêm máy chủ Kokoro TTS MCP vào phần mcpServers của Claude.
  3. Dán cấu hình JSON như ở trên.
  4. Lưu và khởi động lại môi trường Claude.

Cursor

  1. Tải xuống kho lưu trữ và các tệp mô hình cần thiết.
  2. Cập nhật cursor.json hoặc cấu hình tương đương để thêm máy chủ Kokoro TTS MCP.
  3. Sao chép đoạn JSON được cung cấp, cập nhật đường dẫn nếu cần.
  4. Lưu thay đổi và khởi động lại Cursor.

Cline

  1. Sao chép kho lưu trữ và cấu hình các biến môi trường.
  2. Chỉnh sửa cấu hình Cline, thêm máy chủ Kokoro TTS MCP như ví dụ.
  3. Lưu và khởi động lại client Cline.

Bảo mật API Keys

Luôn sử dụng biến môi trường để lưu thông tin nhạy cảm như thông tin AWS. Ví dụ:

"env": {
  "AWS_ACCESS_KEY_ID": "${AWS_ACCESS_KEY_ID}",
  "AWS_SECRET_ACCESS_KEY": "${AWS_SECRET_ACCESS_KEY}",
  ...
}

Thiết lập các biến này trong hệ thống hoặc môi trường CI của bạn, không bao giờ ghi trực tiếp thông tin bí mật vào tệp cấu hình.

Cách sử dụng MCP này trong flow

Sử dụng MCP trong FlowHunt

Để tích hợp MCP server vào quy trình FlowHunt, hãy thêm thành phần MCP vào flow và kết nối với tác nhân AI của bạn:

FlowHunt MCP flow

Nhấp vào thành phần MCP để mở bảng cấu hình. Trong phần cấu hình system MCP, hãy nhập chi tiết máy chủ MCP của bạn theo định dạng JSON sau:

{
  "kokoro-tts-mcp": {
    "transport": "streamable_http",
    "url": "https://yourmcpserver.example/pathtothemcp/url"
  }
}

Sau khi cấu hình, tác nhân AI có thể sử dụng MCP này như một công cụ với quyền truy cập đầy đủ các chức năng và khả năng. Hãy nhớ thay “kokoro-tts-mcp” thành tên thực tế của MCP server bạn dùng và thay URL bằng đường dẫn máy chủ MCP của bạn.


Tổng quan

MụcKhả dụngChi tiết/Ghi chú
Tổng quanMáy chủ chuyển văn bản thành giọng nói cho luồng công việc AI
Danh sách PromptKhông tìm thấy mẫu prompt
Danh sách Tài nguyênKhông có tài nguyên MCP cụ thể được ghi lại
Danh sách Công cụTTS, tải lên S3, quản lý tệp cục bộ
Bảo mật API KeysHướng dẫn sử dụng biến môi trường cho AWS và config
Hỗ trợ Sampling (không quan trọng trong đánh giá)Không đề cập đến tính năng lấy mẫu LLM

Ý kiến của chúng tôi

Kokoro TTS MCP Server tập trung, thực tiễn, cung cấp công cụ chuyên biệt cho tác vụ chuyển văn bản thành giọng nói với tích hợp đám mây. Nó thiếu các primitive prompt và tài nguyên, nhưng là mã nguồn mở, cấu hình tốt và hỗ trợ quản lý key bảo mật. Không đề cập đến Sampling và Roots, hạn chế khả năng agentic nâng cao. Đối với các trường hợp TTS, nó mạnh mẽ và hữu ích, dù không nhiều tính năng như các MCP server tổng quát hơn.

Điểm MCP

Có LICENSE✅ (Apache-2.0)
Có ít nhất một công cụ
Số Fork7
Số Star39

Câu hỏi thường gặp

Kokoro TTS MCP Server là gì?

Kokoro TTS MCP Server là một máy chủ Model Context Protocol cho phép các tác nhân và client AI chuyển đổi đầu vào văn bản thành âm thanh giọng nói chất lượng cao, với các tùy chọn về giọng nói, tốc độ, ngôn ngữ và lưu trữ đám mây. Nó lý tưởng để thêm chức năng chuyển văn bản thành giọng nói cho chatbot, công cụ hỗ trợ tiếp cận và quy trình tự động hóa.

Những tính năng chính của Kokoro TTS MCP là gì?

Nó hỗ trợ tùy chỉnh giọng nói, tốc độ, ngôn ngữ bằng mô hình HuggingFace và trọng số ONNX. Âm thanh có thể được lưu trữ cục bộ hoặc tải lên Amazon S3. Dễ dàng tích hợp vào môi trường phát triển, chatbot và pipeline tự động hóa.

Làm sao để bảo mật thông tin AWS cho việc tải lên S3?

Không bao giờ ghi trực tiếp thông tin mật khẩu vào tệp cấu hình. Hãy sử dụng biến môi trường để truyền an toàn các thông tin nhạy cảm như AWS_ACCESS_KEY_ID và AWS_SECRET_ACCESS_KEY cho Kokoro TTS MCP Server.

Những trường hợp sử dụng điển hình là gì?

Các trường hợp sử dụng bao gồm giải pháp hỗ trợ tiếp cận (giọng nói cho người khiếm thị), thông báo giọng nói, sáng tạo nội dung (thuyết minh cho media), AI hội thoại và lưu trữ âm thanh tuân thủ quy định.

Tôi có thể dùng Kokoro TTS với FlowHunt không?

Có, bạn có thể thêm Kokoro TTS như một thành phần MCP trong quy trình FlowHunt của mình, cho phép tác nhân tạo phản hồi âm thanh và sử dụng tất cả công cụ cũng như cấu hình được hỗ trợ.

Kokoro TTS có hỗ trợ lấy mẫu LLM nâng cao hoặc mẫu prompt không?

Không, Kokoro TTS tập trung vào chuyển văn bản thành giọng nói chất lượng cao và không cung cấp các primitive prompt hay chức năng lấy mẫu LLM.

Tích hợp Kokoro TTS vào quy trình AI của bạn

Thêm tổng hợp giọng nói tự nhiên, chất lượng cao cho chatbot và tự động hóa của bạn với Kokoro TTS MCP Server. Thử nghiệm trên FlowHunt hoặc kết nối với hạ tầng của riêng bạn.

Tìm hiểu thêm

Markdownify MCP Server
Markdownify MCP Server

Markdownify MCP Server

Markdownify MCP Server chuyển đổi nhiều loại tệp và nội dung web—như PDF, DOCX, hình ảnh, âm thanh và trang web—thành định dạng Markdown chuẩn hóa, giúp trợ lý ...

6 phút đọc
AI Document Conversion +4
Typesense MCP Server
Typesense MCP Server

Typesense MCP Server

Typesense MCP Server kết nối các tác nhân AI với Typesense, một công cụ tìm kiếm mã nguồn mở, cho phép LLM tìm kiếm, truy xuất và phân tích các bộ sưu tập dữ li...

6 phút đọc
AI Search +6
Quarkus MCP Server
Quarkus MCP Server

Quarkus MCP Server

Quarkus MCP Server cho phép người dùng FlowHunt kết nối các agent LLM với cơ sở dữ liệu và dịch vụ bên ngoài thông qua các máy chủ MCP dựa trên Java, đơn giản h...

5 phút đọc
MCP Database +5