OpenClaw noch nicht installiert? Klicken Sie hier fur die Ein-Klick-Installationsanweisung
curl -fsSL https://openclaw.ai/install.sh | bashiwr -useb https://openclaw.ai/install.ps1 | iexcurl -fsSL https://openclaw.ai/install.cmd -o install.cmd && install.cmd && del install.cmd- OpenClaw unterstutzt bidirektionale Sprachinteraktion: hochwertige Sprachsynthese (TTS) uber ElevenLabs und Sprache-zu-Text (STT) uber OpenAI Whisper[1]
- Die Sprachfunktionen werden uber das SAG-Modul (Speech-Audio Gateway) einheitlich verwaltet -- es genugt, den API-Key einzurichten, ohne zusatzliche Hardware installieren zu mussen[6]
- In Kanalen, die Sprachnachrichten unterstutzen, wie Telegram, koennen Sie dem Agenten direkt Sprachnachrichten senden, und der Agent kann ebenfalls per Sprache antworten -- eine echte „Sprachassistenten"-Erfahrung[7]
- ElevenLabs bietet uber 30 voreingestellte Stimmen sowie die Moeglichkeit zur benutzerdefinierten Stimmklonung -- Sie koennen den Agenten in Ihrer bevorzugten Stimme sprechen lassen[2]
1. Ubersicht der Sprachfunktionen
Die Sprachfunktionen von OpenClaw loesen ein praktisches Problem: Manchmal ist Tippen einfach nicht moglich. Wenn Sie Auto fahren, kochen oder Sport treiben und den KI-Agenten um Hilfe bitten moechten, ist Sprache die naturlichste Interaktionsform.[5]
Die Sprachinteraktion umfasst zwei Richtungen:
- Spracheingabe (STT): Sie sprechen einen Befehl aus → Whisper wandelt ihn in Text um → der Agent versteht und fuhrt aus
- Sprachausgabe (TTS): Der Agent schliesst die Aufgabe ab → Textergebnis → ElevenLabs wandelt es in eine Sprachantwort um
2. ElevenLabs TTS Sprachsynthese-Konfiguration
2.1 API Key beschaffen
Gehen Sie zur ElevenLabs-Website, um ein Konto zu registrieren (der kostenlose Plan bietet monatlich 10.000 Zeichen Sprachkontingent). Auf der Profilseite erhalten Sie Ihren API Key.[2]
2.2 OpenClaw konfigurieren
Tragen Sie den API Key in die OpenClaw-Konfiguration ein:[6]
openclaw config set sag.elevenlabs_api_key "Ihr_ELEVENLABS_API_KEY"
Starten Sie das Gateway neu:
openclaw gateway restart
2.3 Stimme auswahlen
ElevenLabs bietet verschiedene voreingestellte Stimmen an. Sie koennen diese auf der Plattform probehoeren und anschliessend die Stimmen-ID als Standardstimme des Agenten konfigurieren:
openclaw config set sag.elevenlabs_voice_id "VOICE_ID"
ElevenLabs unterstutzt auch die benutzerdefinierte Stimmklonung -- laden Sie Sprachproben hoch, um eine exklusive Stimme zu erstellen. Dies ist besonders wertvoll fur Unternehmensanwendungen, die Markenkonsistenz erfordern.[2]
3. Whisper Spracherkennungs-Konfiguration
3.1 OpenAI Whisper Integration
Whisper ist ein von OpenAI entwickeltes Spracherkennungsmodell, das uber 90 Sprachen unterstutzt (einschliesslich Chinesisch).[3]
openclaw config set sag.whisper_provider "openai"
Die Whisper-API-Aufrufe verwenden Ihren bereits konfigurierten OpenAI API Key -- es ist keine zusatzliche Authentifizierung erforderlich.
3.2 Qualitat der chinesischen Spracherkennung
Die Erkennungsgenauigkeit von Whisper fur Chinesisch (Mandarin) liegt in ruhiger Umgebung uber 95 %. Beachten Sie jedoch:
- Dialekte und Akzente: Starke Dialektakzente koennen die Genauigkeit verringern
- Hintergrundgerausche: In lauten Umgebungen wird die Verwendung eines Gerauschunterdruckungsmikrofons empfohlen
- Fachbegriffe: Technische Begriffe (wie API, Docker, Kubernetes) werden in der Regel korrekt erkannt
4. Praxisanwendungsszenarien
4.1 Telegram-Sprachbefehle
In Telegram koennen Sie direkt die Aufnahmetaste gedruckt halten und Ihren Befehl sprechen:[7]
„Bitte prufen Sie die Festplattenauslastung des Servers. Falls sie 80 % uberschreitet, sagen Sie mir, welche Verzeichnisse den meisten Speicher belegen."
Nachdem der Agent die Sprachnachricht empfangen hat, wandelt Whisper sie in Text um. Der Agent fuhrt die Aufgabe aus und antwortet per Text oder Sprache (je nach Ihrer Konfiguration).
4.2 Sprachberichte
In Kombination mit Cron-Planungsaufgaben kann der Agent Ihnen jeden Morgen per Sprache wichtige Informationen berichten -- wie ein persoenlicher Nachrichtensprecher.
4.3 Barrierefreie Interaktion
Die Sprachfunktionen ermoglichen es sehbehinderten oder in der Mobilitat eingeschrankten Benutzern, den KI-Agenten zu bedienen, ohne Tastatur oder Bildschirm beruhren zu mussen.
5. Kostenschatzung
| Dienst | Kostenloses Kontingent | Kostenpflichtiger Preis |
|---|---|---|
| ElevenLabs TTS | 10.000 Zeichen/Monat | ab $5/Monat (30.000 Zeichen) |
| OpenAI Whisper | Kein kostenloses Kontingent | $0,006/Minute |
Fur den taglichen Gebrauch geschatzt: 10 Sprachinteraktionen pro Tag, durchschnittlich 30 Sekunden Spracheingabe + 200 Zeichen Sprachantwort pro Interaktion -- die monatlichen Kosten betragen etwa $2--$5.
6. Fehlerbehebung
| Problem | Ursache | Loesung |
|---|---|---|
| Keine Toenwiedergabe bei Sprachantworten | ElevenLabs API Key nicht konfiguriert oder ungultig | Stellen Sie sicher, dass sag.elevenlabs_api_key korrekt konfiguriert ist |
| Hohe Fehlerquote bei der Spracherkennung | Schlechte Audioqualitat oder Hintergrundgerausche | Verwenden Sie ein Gerauschunterdruckungsmikrofon; nehmen Sie in ruhiger Umgebung auf |
| Chinesische Befehle werden als Englisch erkannt | Whisper Spracherkennungsfehler | Beginnen Sie die Aufnahme mit einem klaren chinesischen Satz |
| Ubermassige Verzoegerung bei Sprachantworten | Langsame ElevenLabs API-Antwort | Wahlen Sie ein Stimmmodell mit geringerer Latenz; prufen Sie die Netzwerkverbindung |
| Kostenloses Kontingent aufgebraucht | ElevenLabs Monatslimit erschopft | Upgrade auf einen kostenpflichtigen Plan oder TTS vorubergehend deaktivieren und auf reine Textantworten umstellen |
Fazit
Die Sprachfunktionen verwandeln OpenClaw von einem „Textbefehlstool" in einen „Sprachassistenten".[1] Die Konfiguration erfordert lediglich zwei API Keys und einige Befehle, bringt aber eine qualitative Verbesserung des Interaktionserlebnisses -- besonders in Situationen, in denen Sie nicht tippen koennen.
Die Sprachfunktionen setzen die Unterstutzung des Kommunikationskanals voraus. Falls Sie Telegram noch nicht eingerichtet haben, empfehlen wir, zunachst den Telegram-Integrationsleitfaden abzuschliessen. Bei Fragen zur vollstandigen OpenClaw-Konfiguration konsultieren Sie den Konfigurationsleitfaden.



