OpenClawをまだインストールしていませんか?ワンラインインストールコマンドはこちら
curl -fsSL https://openclaw.ai/install.sh | bash
iwr -useb https://openclaw.ai/install.ps1 | iex
curl -fsSL https://openclaw.ai/install.cmd -o install.cmd && install.cmd && del install.cmd
PCへの影響が心配ですか?ClawTankならクラウドで動作し、インストール不要で誤削除のリスクもありません
主要な知見
  • OpenClawは双方向の音声インタラクションに対応:ElevenLabsによる高品質音声合成(TTS)と、OpenAI Whisperによる音声テキスト変換(STT)[1]
  • 音声機能は統合されたSAG(Speech-Audio Gateway)モジュールで管理され、APIキーを設定するだけで有効化できる。追加のハードウェアは不要[6]
  • Telegramなどの音声メッセージ対応チャンネルでは、エージェントに音声メッセージを直接送信でき、エージェントも音声で返信可能――真の「音声アシスタント」体験を実現[7]
  • ElevenLabsは30以上のプリセットボイスとカスタム音声クローンを提供し、好みの声でエージェントに話させることができる[2]

1. 音声機能の概要

OpenClawの音声機能は実用的な課題を解決する:タイピングが不便な場面がある。運転中、料理中、運動中にAIエージェントに何かをしてもらいたい時、音声が最も自然なインタラクション方法である。[5]

音声インタラクションには2つの方向がある:

2. ElevenLabs TTS音声合成の設定

2.1 APIキーの取得

ElevenLabsのウェブサイトにアクセスしてアカウントを登録する(無料プランでは月10,000文字分の音声枠が提供される)。プロフィールページからAPIキーを取得する。[2]

2.2 OpenClawの設定

APIキーをOpenClawの設定に書き込む:[6]

openclaw config set sag.elevenlabs_api_key "your_ELEVENLABS_API_KEY"

Gatewayを再起動する:

openclaw gateway restart

2.3 ボイスの選択

ElevenLabsは複数のプリセットボイスを提供している。プラットフォーム上でプレビューした後、ボイスIDをエージェントのデフォルトボイスとして設定する:

openclaw config set sag.elevenlabs_voice_id "VOICE_ID"

ElevenLabsはカスタム音声クローンにも対応しており、音声サンプルをアップロードして独自のボイスを作成できる。これはブランドの一貫性が求められる企業用途で特に価値がある。[2]

3. Whisper音声認識の設定

3.1 OpenAI Whisperの統合

WhisperはOpenAIが開発した音声認識モデルで、90以上の言語(日本語を含む)に対応している。[3]

openclaw config set sag.whisper_provider "openai"

Whisper APIの呼び出しには既存のOpenAI APIキーが使用される。追加の認証は不要である。

3.2 日本語音声認識の品質

Whisperの日本語(標準語)認識精度は、静かな環境で95%を超える。ただし、以下の点に注意が必要である:

4. 実践的な活用シナリオ

4.1 Telegram音声コマンド

Telegramでは、録音ボタンを長押しして直接コマンドを話すことができる:[7]

サーバーのディスク使用量を確認して。80%を超えていたら、最も容量を占めているディレクトリを教えて。

音声メッセージを受信後、Whisperがテキストに変換し、エージェントがタスクを実行してテキストまたは音声(設定による)で返信する。

4.2 音声レポート

Cronスケジュールタスクと組み合わせることで、エージェントが毎朝重要な情報を音声で届けてくれる――まるで専属のニュースキャスターのように。

4.3 アクセシブルなインタラクション

音声機能により、視覚障害者やモビリティに制限のあるユーザーが、キーボードや画面に触れることなくAIエージェントを操作できるようになる。

5. コスト試算

サービス無料枠有料プラン
ElevenLabs TTS月10,000文字月額$5〜(30,000文字)
OpenAI Whisper無料枠なし$0.006/分

日常的な使用の試算:1日10回の音声インタラクション、平均で各30秒の音声入力+200文字の音声レスポンスの場合、月額コストは約$2〜$5 USDである。

6. トラブルシューティング

問題原因解決策
音声返信に音がないElevenLabs APIキーが未設定または無効sag.elevenlabs_api_keyが正しく設定されているか確認
音声認識のエラー率が高い音声品質の低さまたは環境ノイズノイズキャンセリングマイクを使用し、静かな環境で録音
日本語コマンドが英語として認識されるWhisperの言語検出エラー明確な日本語の文で音声入力を開始する
音声返信のレイテンシが高いElevenLabs APIのレスポンスが遅い低レイテンシのボイスモデルを選択し、ネットワーク接続を確認
無料枠を使い切ったElevenLabsの月間上限に到達プランをアップグレードするか、一時的にTTSを無効にしてテキストのみの返信に切り替え

まとめ

音声機能はOpenClawを「テキストコマンドツール」から「音声アシスタント」へと昇格させる。[1]セットアップに必要なのは2つのAPIキーと数個のコマンドだけだが、インタラクション体験の向上は質的な飛躍である――特にタイピングができないシナリオにおいて。

音声機能はチャンネルのサポートに依存する。Telegramをまだ設定していない場合は、まずTelegram連携ガイドを完了することを推奨する。OpenClawの完全な設定に関する質問は、設定完全ガイドを参照してほしい。