Kokoro TTS MCP Server

Kokoro TTS MCP Server bringt natürlich klingende, anpassbare Text-to-Speech-Funktionen in Ihre KI-Anwendungen – mit Unterstützung für lokale und Cloud-Audio-Speicherung. Ideal für Barrierefreiheit, Automatisierung und Content-Erstellung.

Kokoro TTS MCP Server

Was macht der “Kokoro TTS” MCP Server?

Der Kokoro Text-to-Speech (TTS) MCP Server ist ein Model Context Protocol (MCP) Server, der es KI-Assistenten und Clients ermöglicht, hochwertige Sprachausgabe aus Texteingaben zu erzeugen. Durch die Verbindung von KI-Workflows mit diesem Server können Nutzer Text in .mp3-Dateien umwandeln und diese optional auf Amazon S3 oder kompatiblen Speichern ablegen. Kokoro TTS nutzt fortschrittliche Modelle (über HuggingFace Spaces und ONNX-Gewichte), um anpassbare Stimmen, Geschwindigkeiten und Sprachen bereitzustellen. So lassen sich Text-to-Speech-Funktionen nahtlos in Entwicklungsumgebungen, Chatbots oder Automatisierungspipelines integrieren. Besonders wertvoll ist dieser MCP Server für Szenarien, in denen synthetische Sprache für Barrierefreiheit, Benachrichtigungen oder Content-Erstellung benötigt wird.

Liste der Prompt-Vorlagen

Im Repository sind keine expliziten Prompt-Vorlagen dokumentiert.

Liste der Ressourcen

Im Repository oder README sind keine expliziten Ressourcen dokumentiert.

Liste der Tools

  • Text-to-Speech-Erzeugung
    Wandelt eingegebenen Text mit Kokoro TTS-Modellen in eine .mp3-Audiodatei um. Ermöglicht Konfiguration von Stimme, Geschwindigkeit und Sprache.
  • S3-Upload
    Lädt erzeugte .mp3-Dateien optional in einen angegebenen Amazon S3-Bucket/-Ordner hoch, falls in der Konfiguration aktiviert.
  • Lokale MP3-Verwaltung
    Speichert generierte .mp3-Dateien in einem definierten lokalen Ordner und kann diese nach dem Upload oder nach einer Aufbewahrungszeit automatisch löschen.

Anwendungsfälle dieses MCP Servers

  • Barrierefreiheitslösungen:
    Integrieren Sie Kokoro TTS in Anwendungen, um Sprachfeedback für sehbehinderte Nutzer bereitzustellen oder Inhalte vorlesen zu lassen.
  • Sprachbenachrichtigungen:
    Automatisieren Sie Sprachalarme in Monitoring- oder IoT-Systemen, indem Sie Ereignisnachrichten in Sprachausgabe umwandeln.
  • Content-Erstellung:
    Erzeugen Sie Voice-Over für Videos, Podcasts oder interaktive Medien direkt aus geschriebenen Skripten.
  • Konversations-KI/Chatbots:
    Ermöglichen Sie Chatbots, mit gesprochener Ausgabe zu antworten und so die Nutzerbindung im Kundenservice oder bei virtuellen Assistenten zu steigern.
  • Audio-Archivierung & Compliance:
    Erstellen Sie Audioprotokolle von textbasierten Kommunikationen zu Compliance- oder Archivierungszwecken.

So richten Sie ihn ein

Windsurf

  1. Stellen Sie sicher, dass Sie uv und alle Kokoro-Modell-Dateien heruntergeladen haben.
  2. Klonen Sie das Kokoro TTS MCP-Repository auf Ihren lokalen Rechner.
  3. Bearbeiten Sie Ihre Windsurf-Konfigurationsdatei, um den Kokoro TTS MCP Server hinzuzufügen.
  4. Fügen Sie das folgende JSON-Snippet zu Ihrem mcpServers-Objekt hinzu:
    {
      "kokoro-tts-mcp": {
        "command": "uv",
        "args": [
          "--directory",
          "/path/toyourlocal/kokoro-tts-mcp",
          "run",
          "mcp-tts.py"
        ],
        "env": {
          "TTS_VOICE": "af_heart",
          "TTS_SPEED": "1.0",
          "TTS_LANGUAGE": "en-us",
          "AWS_ACCESS_KEY_ID": "",
          "AWS_SECRET_ACCESS_KEY": "",
          "AWS_REGION": "us-east-1",
          "AWS_S3_FOLDER": "mp3",
          "S3_ENABLED": "true",
          "MP3_FOLDER": "/path/to/mp3"
        }
      }
    }
    
  5. Speichern Sie Ihre Konfiguration und starten Sie Windsurf neu.

Claude

  1. Installieren Sie die Voraussetzungen (Node.js, uv, Kokoro-Modelle).
  2. Fügen Sie den Kokoro TTS MCP Server in Claudes mcpServers-Abschnitt hinzu.
  3. Fügen Sie die JSON-Konfiguration wie oben ein.
  4. Speichern Sie und starten Sie die Claude-Umgebung neu.

Cursor

  1. Laden Sie das Repository und die benötigten Modelldateien herunter.
  2. Aktualisieren Sie die cursor.json oder die entsprechende Konfiguration, um den Kokoro TTS MCP Server einzubinden.
  3. Kopieren Sie das bereitgestellte JSON-Snippet und passen Sie die Pfade nach Bedarf an.
  4. Speichern Sie die Änderungen und starten Sie Cursor neu.

Cline

  1. Klonen Sie das Repository und konfigurieren Sie die Umgebungsvariablen.
  2. Bearbeiten Sie die Cline-Konfiguration und fügen Sie den Kokoro TTS MCP Server wie gezeigt hinzu.
  3. Speichern Sie und starten Sie den Cline-Client neu.

API-Schlüssel absichern

Verwenden Sie immer Umgebungsvariablen, um sensible Informationen wie AWS-Zugangsdaten zu speichern. Beispiel:

"env": {
  "AWS_ACCESS_KEY_ID": "${AWS_ACCESS_KEY_ID}",
  "AWS_SECRET_ACCESS_KEY": "${AWS_SECRET_ACCESS_KEY}",
  ...
}

Setzen Sie diese Variablen in Ihrem System oder Ihrer CI-Umgebung – speichern Sie niemals geheime Daten im Klartext in Ihren Konfigurationsdateien.

So nutzen Sie diesen MCP in Flows

Verwendung von MCP in FlowHunt

Um MCP-Server in Ihren FlowHunt-Workflow zu integrieren, fügen Sie zunächst die MCP-Komponente zu Ihrem Flow hinzu und verbinden Sie sie mit Ihrem KI-Agenten:

FlowHunt MCP flow

Klicken Sie auf die MCP-Komponente, um das Konfigurationspanel zu öffnen. Im System-MCP-Konfigurationsbereich fügen Sie die Details Ihres MCP-Servers im folgenden JSON-Format ein:

{
  "kokoro-tts-mcp": {
    "transport": "streamable_http",
    "url": "https://yourmcpserver.example/pathtothemcp/url"
  }
}

Nach der Konfiguration kann der KI-Agent diesen MCP als Tool mit Zugang zu all seinen Funktionen und Fähigkeiten verwenden. Denken Sie daran, “kokoro-tts-mcp” durch den tatsächlichen Namen Ihres MCP-Servers und die URL durch die Ihres eigenen MCP-Servers zu ersetzen.


Übersicht

AbschnittVerfügbarkeitDetails/Hinweise
ÜbersichtText-to-Speech-Server für KI-Workflows
Prompt-ListeKeine Prompt-Vorlagen gefunden
Ressourcen-ListeKeine expliziten MCP-Ressourcen dokumentiert
Tools-ListeTTS, S3-Upload, lokale Dateiverwaltung
Absicherung der API-SchlüsselDokumentierte Nutzung von Umgebungsvariablen für AWS und Konfiguration
Sampling-Unterstützung (weniger wichtig)Keine Erwähnung von LLM-Sampling-Feature

Unsere Meinung

Der Kokoro TTS MCP Server ist spezialisiert und praxisorientiert und bietet ein spezialisiertes Werkzeug für Text-to-Speech-Aufgaben mit Cloud-Integration. Es fehlen Prompt- und Ressourcen-Primitives, aber er ist Open Source, gut konfigurierbar und unterstützt sicheres Schlüsselmanagement. Sampling- und Roots-Unterstützung werden nicht erwähnt, was die fortgeschrittenen agentischen Fähigkeiten einschränkt. Für TTS-Anwendungsfälle ist er robust und nützlich, wenn auch nicht so funktionsreich wie stärker generalisierte MCP Server.

MCP Score

Hat eine LICENSE✅ (Apache-2.0)
Mindestens ein Tool
Anzahl Forks7
Anzahl Sterne39

Häufig gestellte Fragen

Was ist der Kokoro TTS MCP Server?

Der Kokoro TTS MCP Server ist ein Model Context Protocol Server, der es KI-Agenten und Clients ermöglicht, Texteingaben in hochwertige Sprachausgabe umzuwandeln – mit Optionen für Stimme, Geschwindigkeit, Sprache und Cloud-Speicherung. Ideal für die Integration von Text-to-Speech in Chatbots, Barrierefreiheits-Tools und Automatisierungs-Workflows.

Was sind die Hauptfunktionen von Kokoro TTS MCP?

Er unterstützt anpassbare Stimmen, Geschwindigkeiten und Sprachen mittels HuggingFace-Modellen und ONNX-Gewichten. Audio kann lokal gespeichert oder auf Amazon S3 hochgeladen werden. Die Integration in Entwicklungsumgebungen, Chatbots und Automatisierungspipelines ist einfach möglich.

Wie sichere ich meine AWS-Zugangsdaten für den S3-Upload?

Speichern Sie Zugangsdaten niemals im Klartext in Konfigurationsdateien. Verwenden Sie stattdessen Umgebungsvariablen, um sensible Informationen wie AWS_ACCESS_KEY_ID und AWS_SECRET_ACCESS_KEY sicher an den Kokoro TTS MCP Server zu übergeben.

Was sind typische Anwendungsfälle?

Anwendungsfälle umfassen Barrierefreiheitslösungen (Sprachausgabe für sehbehinderte Nutzer), Sprachbenachrichtigungen, Content-Erstellung (Voiceover für Medien), Konversations-KI und Audio-Archivierung zu Compliance-Zwecken.

Kann ich Kokoro TTS mit FlowHunt nutzen?

Ja, Sie können Kokoro TTS als MCP-Komponente in Ihren FlowHunt-Workflow integrieren, sodass Ihre Agenten Audioantworten generieren und alle unterstützten Tools sowie Konfigurationen verwenden können.

Unterstützt Kokoro TTS fortgeschrittenes LLM Sampling oder Prompt-Vorlagen?

Nein, Kokoro TTS konzentriert sich auf hochwertige Text-to-Speech-Umwandlung und bietet keine Prompt-Primitives oder LLM-Sampling-Funktionen.

Integrieren Sie Kokoro TTS in Ihren KI-Workflow

Fügen Sie Ihren Chatbots und Automatisierungen mit dem Kokoro TTS MCP Server hochwertige Sprachsynthese hinzu. Testen Sie es in FlowHunt oder verbinden Sie es mit Ihrer eigenen Infrastruktur.

Mehr erfahren