OpenClawをまだインストールしていませんか?ワンラインインストールコマンドはこちら
curl -fsSL https://openclaw.ai/install.sh | bashiwr -useb https://openclaw.ai/install.ps1 | iexcurl -fsSL https://openclaw.ai/install.cmd -o install.cmd && install.cmd && del install.cmd- OpenClawは双方向の音声インタラクションに対応:ElevenLabsによる高品質音声合成(TTS)と、OpenAI Whisperによる音声テキスト変換(STT)[1]
- 音声機能は統合されたSAG(Speech-Audio Gateway)モジュールで管理され、APIキーを設定するだけで有効化できる。追加のハードウェアは不要[6]
- Telegramなどの音声メッセージ対応チャンネルでは、エージェントに音声メッセージを直接送信でき、エージェントも音声で返信可能――真の「音声アシスタント」体験を実現[7]
- ElevenLabsは30以上のプリセットボイスとカスタム音声クローンを提供し、好みの声でエージェントに話させることができる[2]
1. 音声機能の概要
OpenClawの音声機能は実用的な課題を解決する:タイピングが不便な場面がある。運転中、料理中、運動中にAIエージェントに何かをしてもらいたい時、音声が最も自然なインタラクション方法である。[5]
音声インタラクションには2つの方向がある:
- 音声入力(STT):音声でコマンドを発話 -> Whisperがテキストに変換 -> エージェントが理解して実行
- 音声出力(TTS):エージェントがタスクを完了 -> テキスト結果 -> ElevenLabsが音声に変換して返信
2. ElevenLabs TTS音声合成の設定
2.1 APIキーの取得
ElevenLabsのウェブサイトにアクセスしてアカウントを登録する(無料プランでは月10,000文字分の音声枠が提供される)。プロフィールページからAPIキーを取得する。[2]
2.2 OpenClawの設定
APIキーをOpenClawの設定に書き込む:[6]
openclaw config set sag.elevenlabs_api_key "your_ELEVENLABS_API_KEY"
Gatewayを再起動する:
openclaw gateway restart
2.3 ボイスの選択
ElevenLabsは複数のプリセットボイスを提供している。プラットフォーム上でプレビューした後、ボイスIDをエージェントのデフォルトボイスとして設定する:
openclaw config set sag.elevenlabs_voice_id "VOICE_ID"
ElevenLabsはカスタム音声クローンにも対応しており、音声サンプルをアップロードして独自のボイスを作成できる。これはブランドの一貫性が求められる企業用途で特に価値がある。[2]
3. Whisper音声認識の設定
3.1 OpenAI Whisperの統合
WhisperはOpenAIが開発した音声認識モデルで、90以上の言語(日本語を含む)に対応している。[3]
openclaw config set sag.whisper_provider "openai"
Whisper APIの呼び出しには既存のOpenAI APIキーが使用される。追加の認証は不要である。
3.2 日本語音声認識の品質
Whisperの日本語(標準語)認識精度は、静かな環境で95%を超える。ただし、以下の点に注意が必要である:
- 方言やアクセント:強い方言やアクセントは精度を低下させる可能性がある
- 環境ノイズ:騒がしい環境ではノイズキャンセリングマイクの使用を推奨
- 技術用語:API、Docker、Kubernetesなどの技術用語は通常正しく認識される
4. 実践的な活用シナリオ
4.1 Telegram音声コマンド
Telegramでは、録音ボタンを長押しして直接コマンドを話すことができる:[7]
「サーバーのディスク使用量を確認して。80%を超えていたら、最も容量を占めているディレクトリを教えて。」
音声メッセージを受信後、Whisperがテキストに変換し、エージェントがタスクを実行してテキストまたは音声(設定による)で返信する。
4.2 音声レポート
Cronスケジュールタスクと組み合わせることで、エージェントが毎朝重要な情報を音声で届けてくれる――まるで専属のニュースキャスターのように。
4.3 アクセシブルなインタラクション
音声機能により、視覚障害者やモビリティに制限のあるユーザーが、キーボードや画面に触れることなくAIエージェントを操作できるようになる。
5. コスト試算
| サービス | 無料枠 | 有料プラン |
|---|---|---|
| ElevenLabs TTS | 月10,000文字 | 月額$5〜(30,000文字) |
| OpenAI Whisper | 無料枠なし | $0.006/分 |
日常的な使用の試算:1日10回の音声インタラクション、平均で各30秒の音声入力+200文字の音声レスポンスの場合、月額コストは約$2〜$5 USDである。
6. トラブルシューティング
| 問題 | 原因 | 解決策 |
|---|---|---|
| 音声返信に音がない | ElevenLabs APIキーが未設定または無効 | sag.elevenlabs_api_keyが正しく設定されているか確認 |
| 音声認識のエラー率が高い | 音声品質の低さまたは環境ノイズ | ノイズキャンセリングマイクを使用し、静かな環境で録音 |
| 日本語コマンドが英語として認識される | Whisperの言語検出エラー | 明確な日本語の文で音声入力を開始する |
| 音声返信のレイテンシが高い | ElevenLabs APIのレスポンスが遅い | 低レイテンシのボイスモデルを選択し、ネットワーク接続を確認 |
| 無料枠を使い切った | ElevenLabsの月間上限に到達 | プランをアップグレードするか、一時的にTTSを無効にしてテキストのみの返信に切り替え |
まとめ
音声機能はOpenClawを「テキストコマンドツール」から「音声アシスタント」へと昇格させる。[1]セットアップに必要なのは2つのAPIキーと数個のコマンドだけだが、インタラクション体験の向上は質的な飛躍である――特にタイピングができないシナリオにおいて。
音声機能はチャンネルのサポートに依存する。Telegramをまだ設定していない場合は、まずTelegram連携ガイドを完了することを推奨する。OpenClawの完全な設定に関する質問は、設定完全ガイドを参照してほしい。



