OpenClaw noch nicht installiert? Klicken Sie hier fur die Ein-Klick-Installationsanweisung
curl -fsSL https://openclaw.ai/install.sh | bash
iwr -useb https://openclaw.ai/install.ps1 | iex
curl -fsSL https://openclaw.ai/install.cmd -o install.cmd && install.cmd && del install.cmd
Besorgt uber Auswirkungen auf Ihren Computer? ClawTank lauft in der Cloud ohne Installation -- kein Risiko versehentlicher Dateiloschung
Key Findings
  • OpenClaw unterstutzt bidirektionale Sprachinteraktion: hochwertige Sprachsynthese (TTS) uber ElevenLabs und Sprache-zu-Text (STT) uber OpenAI Whisper[1]
  • Die Sprachfunktionen werden uber das SAG-Modul (Speech-Audio Gateway) einheitlich verwaltet -- es genugt, den API-Key einzurichten, ohne zusatzliche Hardware installieren zu mussen[6]
  • In Kanalen, die Sprachnachrichten unterstutzen, wie Telegram, koennen Sie dem Agenten direkt Sprachnachrichten senden, und der Agent kann ebenfalls per Sprache antworten -- eine echte „Sprachassistenten"-Erfahrung[7]
  • ElevenLabs bietet uber 30 voreingestellte Stimmen sowie die Moeglichkeit zur benutzerdefinierten Stimmklonung -- Sie koennen den Agenten in Ihrer bevorzugten Stimme sprechen lassen[2]

1. Ubersicht der Sprachfunktionen

Die Sprachfunktionen von OpenClaw loesen ein praktisches Problem: Manchmal ist Tippen einfach nicht moglich. Wenn Sie Auto fahren, kochen oder Sport treiben und den KI-Agenten um Hilfe bitten moechten, ist Sprache die naturlichste Interaktionsform.[5]

Die Sprachinteraktion umfasst zwei Richtungen:

2. ElevenLabs TTS Sprachsynthese-Konfiguration

2.1 API Key beschaffen

Gehen Sie zur ElevenLabs-Website, um ein Konto zu registrieren (der kostenlose Plan bietet monatlich 10.000 Zeichen Sprachkontingent). Auf der Profilseite erhalten Sie Ihren API Key.[2]

2.2 OpenClaw konfigurieren

Tragen Sie den API Key in die OpenClaw-Konfiguration ein:[6]

openclaw config set sag.elevenlabs_api_key "Ihr_ELEVENLABS_API_KEY"

Starten Sie das Gateway neu:

openclaw gateway restart

2.3 Stimme auswahlen

ElevenLabs bietet verschiedene voreingestellte Stimmen an. Sie koennen diese auf der Plattform probehoeren und anschliessend die Stimmen-ID als Standardstimme des Agenten konfigurieren:

openclaw config set sag.elevenlabs_voice_id "VOICE_ID"

ElevenLabs unterstutzt auch die benutzerdefinierte Stimmklonung -- laden Sie Sprachproben hoch, um eine exklusive Stimme zu erstellen. Dies ist besonders wertvoll fur Unternehmensanwendungen, die Markenkonsistenz erfordern.[2]

3. Whisper Spracherkennungs-Konfiguration

3.1 OpenAI Whisper Integration

Whisper ist ein von OpenAI entwickeltes Spracherkennungsmodell, das uber 90 Sprachen unterstutzt (einschliesslich Chinesisch).[3]

openclaw config set sag.whisper_provider "openai"

Die Whisper-API-Aufrufe verwenden Ihren bereits konfigurierten OpenAI API Key -- es ist keine zusatzliche Authentifizierung erforderlich.

3.2 Qualitat der chinesischen Spracherkennung

Die Erkennungsgenauigkeit von Whisper fur Chinesisch (Mandarin) liegt in ruhiger Umgebung uber 95 %. Beachten Sie jedoch:

4. Praxisanwendungsszenarien

4.1 Telegram-Sprachbefehle

In Telegram koennen Sie direkt die Aufnahmetaste gedruckt halten und Ihren Befehl sprechen:[7]

Bitte prufen Sie die Festplattenauslastung des Servers. Falls sie 80 % uberschreitet, sagen Sie mir, welche Verzeichnisse den meisten Speicher belegen."

Nachdem der Agent die Sprachnachricht empfangen hat, wandelt Whisper sie in Text um. Der Agent fuhrt die Aufgabe aus und antwortet per Text oder Sprache (je nach Ihrer Konfiguration).

4.2 Sprachberichte

In Kombination mit Cron-Planungsaufgaben kann der Agent Ihnen jeden Morgen per Sprache wichtige Informationen berichten -- wie ein persoenlicher Nachrichtensprecher.

4.3 Barrierefreie Interaktion

Die Sprachfunktionen ermoglichen es sehbehinderten oder in der Mobilitat eingeschrankten Benutzern, den KI-Agenten zu bedienen, ohne Tastatur oder Bildschirm beruhren zu mussen.

5. Kostenschatzung

DienstKostenloses KontingentKostenpflichtiger Preis
ElevenLabs TTS10.000 Zeichen/Monatab $5/Monat (30.000 Zeichen)
OpenAI WhisperKein kostenloses Kontingent$0,006/Minute

Fur den taglichen Gebrauch geschatzt: 10 Sprachinteraktionen pro Tag, durchschnittlich 30 Sekunden Spracheingabe + 200 Zeichen Sprachantwort pro Interaktion -- die monatlichen Kosten betragen etwa $2--$5.

6. Fehlerbehebung

ProblemUrsacheLoesung
Keine Toenwiedergabe bei SprachantwortenElevenLabs API Key nicht konfiguriert oder ungultigStellen Sie sicher, dass sag.elevenlabs_api_key korrekt konfiguriert ist
Hohe Fehlerquote bei der SpracherkennungSchlechte Audioqualitat oder HintergrundgerauscheVerwenden Sie ein Gerauschunterdruckungsmikrofon; nehmen Sie in ruhiger Umgebung auf
Chinesische Befehle werden als Englisch erkanntWhisper SpracherkennungsfehlerBeginnen Sie die Aufnahme mit einem klaren chinesischen Satz
Ubermassige Verzoegerung bei SprachantwortenLangsame ElevenLabs API-AntwortWahlen Sie ein Stimmmodell mit geringerer Latenz; prufen Sie die Netzwerkverbindung
Kostenloses Kontingent aufgebrauchtElevenLabs Monatslimit erschopftUpgrade auf einen kostenpflichtigen Plan oder TTS vorubergehend deaktivieren und auf reine Textantworten umstellen

Fazit

Die Sprachfunktionen verwandeln OpenClaw von einem „Textbefehlstool" in einen „Sprachassistenten".[1] Die Konfiguration erfordert lediglich zwei API Keys und einige Befehle, bringt aber eine qualitative Verbesserung des Interaktionserlebnisses -- besonders in Situationen, in denen Sie nicht tippen koennen.

Die Sprachfunktionen setzen die Unterstutzung des Kommunikationskanals voraus. Falls Sie Telegram noch nicht eingerichtet haben, empfehlen wir, zunachst den Telegram-Integrationsleitfaden abzuschliessen. Bei Fragen zur vollstandigen OpenClaw-Konfiguration konsultieren Sie den Konfigurationsleitfaden.