Kokoro TTS MCP Server
Kokoro TTS MCP Server bringt natürlich klingende, anpassbare Text-to-Speech-Funktionen in Ihre KI-Anwendungen – mit Unterstützung für lokale und Cloud-Audio-Speicherung. Ideal für Barrierefreiheit, Automatisierung und Content-Erstellung.

Was macht der “Kokoro TTS” MCP Server?
Der Kokoro Text-to-Speech (TTS) MCP Server ist ein Model Context Protocol (MCP) Server, der es KI-Assistenten und Clients ermöglicht, hochwertige Sprachausgabe aus Texteingaben zu erzeugen. Durch die Verbindung von KI-Workflows mit diesem Server können Nutzer Text in .mp3-Dateien umwandeln und diese optional auf Amazon S3 oder kompatiblen Speichern ablegen. Kokoro TTS nutzt fortschrittliche Modelle (über HuggingFace Spaces und ONNX-Gewichte), um anpassbare Stimmen, Geschwindigkeiten und Sprachen bereitzustellen. So lassen sich Text-to-Speech-Funktionen nahtlos in Entwicklungsumgebungen, Chatbots oder Automatisierungspipelines integrieren. Besonders wertvoll ist dieser MCP Server für Szenarien, in denen synthetische Sprache für Barrierefreiheit, Benachrichtigungen oder Content-Erstellung benötigt wird.
Liste der Prompt-Vorlagen
Im Repository sind keine expliziten Prompt-Vorlagen dokumentiert.
Liste der Ressourcen
Im Repository oder README sind keine expliziten Ressourcen dokumentiert.
Liste der Tools
- Text-to-Speech-Erzeugung
Wandelt eingegebenen Text mit Kokoro TTS-Modellen in eine .mp3-Audiodatei um. Ermöglicht Konfiguration von Stimme, Geschwindigkeit und Sprache. - S3-Upload
Lädt erzeugte .mp3-Dateien optional in einen angegebenen Amazon S3-Bucket/-Ordner hoch, falls in der Konfiguration aktiviert. - Lokale MP3-Verwaltung
Speichert generierte .mp3-Dateien in einem definierten lokalen Ordner und kann diese nach dem Upload oder nach einer Aufbewahrungszeit automatisch löschen.
Anwendungsfälle dieses MCP Servers
- Barrierefreiheitslösungen:
Integrieren Sie Kokoro TTS in Anwendungen, um Sprachfeedback für sehbehinderte Nutzer bereitzustellen oder Inhalte vorlesen zu lassen. - Sprachbenachrichtigungen:
Automatisieren Sie Sprachalarme in Monitoring- oder IoT-Systemen, indem Sie Ereignisnachrichten in Sprachausgabe umwandeln. - Content-Erstellung:
Erzeugen Sie Voice-Over für Videos, Podcasts oder interaktive Medien direkt aus geschriebenen Skripten. - Konversations-KI/Chatbots:
Ermöglichen Sie Chatbots, mit gesprochener Ausgabe zu antworten und so die Nutzerbindung im Kundenservice oder bei virtuellen Assistenten zu steigern. - Audio-Archivierung & Compliance:
Erstellen Sie Audioprotokolle von textbasierten Kommunikationen zu Compliance- oder Archivierungszwecken.
So richten Sie ihn ein
Windsurf
- Stellen Sie sicher, dass Sie
uv
und alle Kokoro-Modell-Dateien heruntergeladen haben. - Klonen Sie das Kokoro TTS MCP-Repository auf Ihren lokalen Rechner.
- Bearbeiten Sie Ihre Windsurf-Konfigurationsdatei, um den Kokoro TTS MCP Server hinzuzufügen.
- Fügen Sie das folgende JSON-Snippet zu Ihrem
mcpServers
-Objekt hinzu:{ "kokoro-tts-mcp": { "command": "uv", "args": [ "--directory", "/path/toyourlocal/kokoro-tts-mcp", "run", "mcp-tts.py" ], "env": { "TTS_VOICE": "af_heart", "TTS_SPEED": "1.0", "TTS_LANGUAGE": "en-us", "AWS_ACCESS_KEY_ID": "", "AWS_SECRET_ACCESS_KEY": "", "AWS_REGION": "us-east-1", "AWS_S3_FOLDER": "mp3", "S3_ENABLED": "true", "MP3_FOLDER": "/path/to/mp3" } } }
- Speichern Sie Ihre Konfiguration und starten Sie Windsurf neu.
Claude
- Installieren Sie die Voraussetzungen (Node.js, uv, Kokoro-Modelle).
- Fügen Sie den Kokoro TTS MCP Server in Claudes
mcpServers
-Abschnitt hinzu. - Fügen Sie die JSON-Konfiguration wie oben ein.
- Speichern Sie und starten Sie die Claude-Umgebung neu.
Cursor
- Laden Sie das Repository und die benötigten Modelldateien herunter.
- Aktualisieren Sie die
cursor.json
oder die entsprechende Konfiguration, um den Kokoro TTS MCP Server einzubinden. - Kopieren Sie das bereitgestellte JSON-Snippet und passen Sie die Pfade nach Bedarf an.
- Speichern Sie die Änderungen und starten Sie Cursor neu.
Cline
- Klonen Sie das Repository und konfigurieren Sie die Umgebungsvariablen.
- Bearbeiten Sie die Cline-Konfiguration und fügen Sie den Kokoro TTS MCP Server wie gezeigt hinzu.
- Speichern Sie und starten Sie den Cline-Client neu.
API-Schlüssel absichern
Verwenden Sie immer Umgebungsvariablen, um sensible Informationen wie AWS-Zugangsdaten zu speichern. Beispiel:
"env": {
"AWS_ACCESS_KEY_ID": "${AWS_ACCESS_KEY_ID}",
"AWS_SECRET_ACCESS_KEY": "${AWS_SECRET_ACCESS_KEY}",
...
}
Setzen Sie diese Variablen in Ihrem System oder Ihrer CI-Umgebung – speichern Sie niemals geheime Daten im Klartext in Ihren Konfigurationsdateien.
So nutzen Sie diesen MCP in Flows
Verwendung von MCP in FlowHunt
Um MCP-Server in Ihren FlowHunt-Workflow zu integrieren, fügen Sie zunächst die MCP-Komponente zu Ihrem Flow hinzu und verbinden Sie sie mit Ihrem KI-Agenten:

Klicken Sie auf die MCP-Komponente, um das Konfigurationspanel zu öffnen. Im System-MCP-Konfigurationsbereich fügen Sie die Details Ihres MCP-Servers im folgenden JSON-Format ein:
{
"kokoro-tts-mcp": {
"transport": "streamable_http",
"url": "https://yourmcpserver.example/pathtothemcp/url"
}
}
Nach der Konfiguration kann der KI-Agent diesen MCP als Tool mit Zugang zu all seinen Funktionen und Fähigkeiten verwenden. Denken Sie daran, “kokoro-tts-mcp” durch den tatsächlichen Namen Ihres MCP-Servers und die URL durch die Ihres eigenen MCP-Servers zu ersetzen.
Übersicht
Abschnitt | Verfügbarkeit | Details/Hinweise |
---|---|---|
Übersicht | ✅ | Text-to-Speech-Server für KI-Workflows |
Prompt-Liste | ⛔ | Keine Prompt-Vorlagen gefunden |
Ressourcen-Liste | ⛔ | Keine expliziten MCP-Ressourcen dokumentiert |
Tools-Liste | ✅ | TTS, S3-Upload, lokale Dateiverwaltung |
Absicherung der API-Schlüssel | ✅ | Dokumentierte Nutzung von Umgebungsvariablen für AWS und Konfiguration |
Sampling-Unterstützung (weniger wichtig) | ⛔ | Keine Erwähnung von LLM-Sampling-Feature |
Unsere Meinung
Der Kokoro TTS MCP Server ist spezialisiert und praxisorientiert und bietet ein spezialisiertes Werkzeug für Text-to-Speech-Aufgaben mit Cloud-Integration. Es fehlen Prompt- und Ressourcen-Primitives, aber er ist Open Source, gut konfigurierbar und unterstützt sicheres Schlüsselmanagement. Sampling- und Roots-Unterstützung werden nicht erwähnt, was die fortgeschrittenen agentischen Fähigkeiten einschränkt. Für TTS-Anwendungsfälle ist er robust und nützlich, wenn auch nicht so funktionsreich wie stärker generalisierte MCP Server.
MCP Score
Hat eine LICENSE | ✅ (Apache-2.0) |
---|---|
Mindestens ein Tool | ✅ |
Anzahl Forks | 7 |
Anzahl Sterne | 39 |
Häufig gestellte Fragen
- Was ist der Kokoro TTS MCP Server?
Der Kokoro TTS MCP Server ist ein Model Context Protocol Server, der es KI-Agenten und Clients ermöglicht, Texteingaben in hochwertige Sprachausgabe umzuwandeln – mit Optionen für Stimme, Geschwindigkeit, Sprache und Cloud-Speicherung. Ideal für die Integration von Text-to-Speech in Chatbots, Barrierefreiheits-Tools und Automatisierungs-Workflows.
- Was sind die Hauptfunktionen von Kokoro TTS MCP?
Er unterstützt anpassbare Stimmen, Geschwindigkeiten und Sprachen mittels HuggingFace-Modellen und ONNX-Gewichten. Audio kann lokal gespeichert oder auf Amazon S3 hochgeladen werden. Die Integration in Entwicklungsumgebungen, Chatbots und Automatisierungspipelines ist einfach möglich.
- Wie sichere ich meine AWS-Zugangsdaten für den S3-Upload?
Speichern Sie Zugangsdaten niemals im Klartext in Konfigurationsdateien. Verwenden Sie stattdessen Umgebungsvariablen, um sensible Informationen wie AWS_ACCESS_KEY_ID und AWS_SECRET_ACCESS_KEY sicher an den Kokoro TTS MCP Server zu übergeben.
- Was sind typische Anwendungsfälle?
Anwendungsfälle umfassen Barrierefreiheitslösungen (Sprachausgabe für sehbehinderte Nutzer), Sprachbenachrichtigungen, Content-Erstellung (Voiceover für Medien), Konversations-KI und Audio-Archivierung zu Compliance-Zwecken.
- Kann ich Kokoro TTS mit FlowHunt nutzen?
Ja, Sie können Kokoro TTS als MCP-Komponente in Ihren FlowHunt-Workflow integrieren, sodass Ihre Agenten Audioantworten generieren und alle unterstützten Tools sowie Konfigurationen verwenden können.
- Unterstützt Kokoro TTS fortgeschrittenes LLM Sampling oder Prompt-Vorlagen?
Nein, Kokoro TTS konzentriert sich auf hochwertige Text-to-Speech-Umwandlung und bietet keine Prompt-Primitives oder LLM-Sampling-Funktionen.
Integrieren Sie Kokoro TTS in Ihren KI-Workflow
Fügen Sie Ihren Chatbots und Automatisierungen mit dem Kokoro TTS MCP Server hochwertige Sprachsynthese hinzu. Testen Sie es in FlowHunt oder verbinden Sie es mit Ihrer eigenen Infrastruktur.