Key Findings
  • OpenClaw 支援雙向語音互動:透過 ElevenLabs 實現高品質語音合成(TTS),透過 OpenAI Whisper 實現語音轉文字(STT)[1]
  • 語音功能透過 SAG(Speech-Audio Gateway)模組統一管理,只需設定 API Key 即可啟用,無需額外安裝硬體[6]
  • 在 Telegram 等支援語音訊息的通道中,你可以直接發送語音訊息給代理,代理也能以語音回覆——實現真正的「語音助理」體驗[7]
  • ElevenLabs 提供超過 30 種預設聲音與自訂聲音複製功能,你可以讓代理用你喜歡的聲音說話[2]

一、語音功能概覽

OpenClaw 的語音功能解決了一個實際問題:有時候打字不方便。你在開車、做飯、運動時想讓 AI 代理幫你做事,語音是最自然的互動方式。[5]

語音互動包含兩個方向:

二、ElevenLabs TTS 語音合成設定

2.1 取得 API Key

前往 ElevenLabs 官網註冊帳號(免費方案每月提供 10,000 字元的語音額度)。在 Profile 頁面取得你的 API Key。[2]

2.2 設定 OpenClaw

將 API Key 寫入 OpenClaw 設定:[6]

openclaw config set sag.elevenlabs_api_key "你的_ELEVENLABS_API_KEY"

重啟 Gateway:

openclaw gateway restart

2.3 選擇聲音

ElevenLabs 提供多種預設聲音。你可以在其平台上試聽後,將聲音 ID 設定為代理的預設聲音:

openclaw config set sag.elevenlabs_voice_id "VOICE_ID"

ElevenLabs 也支援自訂聲音複製——上傳語音樣本即可建立專屬聲音。這對需要品牌一致性的企業應用特別有價值。[2]

三、Whisper 語音辨識設定

3.1 OpenAI Whisper 串接

Whisper 是 OpenAI 開發的語音辨識模型,支援超過 90 種語言(包括中文)。[3]

openclaw config set sag.whisper_provider "openai"

Whisper 的 API 呼叫使用你已設定的 OpenAI API Key,不需要額外的認證。

3.2 中文語音辨識品質

Whisper 對中文(普通話/國語)的辨識準確率在安靜環境下超過 95%。但需要注意:

四、實戰應用場景

4.1 Telegram 語音指令

在 Telegram 中,你可以直接長按錄音按鈕,說出你的指令:[7]

幫我檢查伺服器的磁碟使用率,如果超過 80% 就告訴我哪些目錄佔最多空間。

代理收到語音後,Whisper 會將其轉為文字,代理執行任務後以文字或語音回覆(取決於你的設定)。

4.2 語音報告

搭配 Cron 定時任務,代理可以每天早上用語音向你報告重要資訊——像是一個個人新聞播報員。

4.3 無障礙互動

語音功能讓視障使用者或行動不便的使用者也能操作 AI 代理,無需觸碰鍵盤或螢幕。

五、費用估算

服務免費額度付費價格
ElevenLabs TTS10,000 字元/月$5/月起(30,000 字元)
OpenAI Whisper無免費額度$0.006/分鐘

以日常使用估算:每天 10 次語音互動、每次平均 30 秒語音輸入 + 200 字元語音回覆,月費大約 $2–$5 美元。

六、疑難排解

問題原因解法
語音回覆沒有聲音ElevenLabs API Key 未設定或無效確認 sag.elevenlabs_api_key 設定正確
語音辨識錯誤率高音質差或背景噪音使用降噪麥克風;在安靜環境中錄音
中文指令被辨識為英文Whisper 語言偵測錯誤在語音開頭加上一句明確的中文句子
語音回覆延遲過長ElevenLabs API 回應慢選擇延遲較低的聲音模型;檢查網路連線
免費額度用完ElevenLabs 月度限額耗盡升級方案或暫時關閉 TTS,改用純文字回覆

結語

語音功能讓 OpenClaw 從「文字指令工具」進化為「語音助理」。[1] 設定只需要兩個 API Key 和幾條指令,但帶來的互動體驗提升是質的飛躍——特別是在你無法打字的場景中。

語音功能依賴通訊渠道的支援。如果你還沒設定 Telegram,建議先完成《Telegram 整合指南》。對 OpenClaw 的完整設定有疑問?請參閱《設定完全指南》