OpenClaw音声機能ガイド：ElevenLabs TTS＆Whisper音声認識の統合

OpenClawをまだインストールしていませんか？ワンラインインストールコマンドはこちら

macOS / Linux PowerShell CMD

curl -fsSL https://openclaw.ai/install.sh | bash

iwr -useb https://openclaw.ai/install.ps1 | iex

curl -fsSL https://openclaw.ai/install.cmd -o install.cmd && install.cmd && del install.cmd

PCへの影響が心配ですか？ClawTankならクラウドで動作し、インストール不要で誤削除のリスクもありません

主要な知見

OpenClawは双方向の音声インタラクションに対応：ElevenLabsによる高品質音声合成（TTS）と、OpenAI Whisperによる音声テキスト変換（STT）^[1]
音声機能は統合されたSAG（Speech-Audio Gateway）モジュールで管理され、APIキーを設定するだけで有効化できる。追加のハードウェアは不要^[6]
Telegramなどの音声メッセージ対応チャンネルでは、エージェントに音声メッセージを直接送信でき、エージェントも音声で返信可能――真の「音声アシスタント」体験を実現^[7]
ElevenLabsは30以上のプリセットボイスとカスタム音声クローンを提供し、好みの声でエージェントに話させることができる^[2]

1. 音声機能の概要

OpenClawの音声機能は実用的な課題を解決する：タイピングが不便な場面がある。運転中、料理中、運動中にAIエージェントに何かをしてもらいたい時、音声が最も自然なインタラクション方法である。^[5]

音声インタラクションには2つの方向がある：

音声入力（STT）：音声でコマンドを発話 -> Whisperがテキストに変換 -> エージェントが理解して実行
音声出力（TTS）：エージェントがタスクを完了 -> テキスト結果 -> ElevenLabsが音声に変換して返信

2. ElevenLabs TTS音声合成の設定

2.1 APIキーの取得

ElevenLabsのウェブサイトにアクセスしてアカウントを登録する（無料プランでは月10,000文字分の音声枠が提供される）。プロフィールページからAPIキーを取得する。^[2]

2.2 OpenClawの設定

APIキーをOpenClawの設定に書き込む：^[6]

openclaw config set sag.elevenlabs_api_key "your_ELEVENLABS_API_KEY"

Gatewayを再起動する：

openclaw gateway restart

2.3 ボイスの選択

ElevenLabsは複数のプリセットボイスを提供している。プラットフォーム上でプレビューした後、ボイスIDをエージェントのデフォルトボイスとして設定する：

openclaw config set sag.elevenlabs_voice_id "VOICE_ID"

ElevenLabsはカスタム音声クローンにも対応しており、音声サンプルをアップロードして独自のボイスを作成できる。これはブランドの一貫性が求められる企業用途で特に価値がある。^[2]

3. Whisper音声認識の設定

3.1 OpenAI Whisperの統合

WhisperはOpenAIが開発した音声認識モデルで、90以上の言語（日本語を含む）に対応している。^[3]

openclaw config set sag.whisper_provider "openai"

Whisper APIの呼び出しには既存のOpenAI APIキーが使用される。追加の認証は不要である。

3.2 日本語音声認識の品質

Whisperの日本語（標準語）認識精度は、静かな環境で95%を超える。ただし、以下の点に注意が必要である：

方言やアクセント：強い方言やアクセントは精度を低下させる可能性がある
環境ノイズ：騒がしい環境ではノイズキャンセリングマイクの使用を推奨
技術用語：API、Docker、Kubernetesなどの技術用語は通常正しく認識される

4. 実践的な活用シナリオ

4.1 Telegram音声コマンド

Telegramでは、録音ボタンを長押しして直接コマンドを話すことができる：^[7]

「サーバーのディスク使用量を確認して。80%を超えていたら、最も容量を占めているディレクトリを教えて。」

音声メッセージを受信後、Whisperがテキストに変換し、エージェントがタスクを実行してテキストまたは音声（設定による）で返信する。

4.2 音声レポート

Cronスケジュールタスクと組み合わせることで、エージェントが毎朝重要な情報を音声で届けてくれる――まるで専属のニュースキャスターのように。

4.3 アクセシブルなインタラクション

音声機能により、視覚障害者やモビリティに制限のあるユーザーが、キーボードや画面に触れることなくAIエージェントを操作できるようになる。

5. コスト試算

サービス	無料枠	有料プラン
ElevenLabs TTS	月10,000文字	月額$5〜（30,000文字）
OpenAI Whisper	無料枠なし	$0.006/分

日常的な使用の試算：1日10回の音声インタラクション、平均で各30秒の音声入力＋200文字の音声レスポンスの場合、月額コストは約$2〜$5 USDである。

6. トラブルシューティング

問題	原因	解決策
音声返信に音がない	ElevenLabs APIキーが未設定または無効	`sag.elevenlabs_api_key`が正しく設定されているか確認
音声認識のエラー率が高い	音声品質の低さまたは環境ノイズ	ノイズキャンセリングマイクを使用し、静かな環境で録音
日本語コマンドが英語として認識される	Whisperの言語検出エラー	明確な日本語の文で音声入力を開始する
音声返信のレイテンシが高い	ElevenLabs APIのレスポンスが遅い	低レイテンシのボイスモデルを選択し、ネットワーク接続を確認
無料枠を使い切った	ElevenLabsの月間上限に到達	プランをアップグレードするか、一時的にTTSを無効にしてテキストのみの返信に切り替え

まとめ

音声機能はOpenClawを「テキストコマンドツール」から「音声アシスタント」へと昇格させる。^[1]セットアップに必要なのは2つのAPIキーと数個のコマンドだけだが、インタラクション体験の向上は質的な飛躍である――特にタイピングができないシナリオにおいて。

音声機能はチャンネルのサポートに依存する。Telegramをまだ設定していない場合は、まずTelegram連携ガイドを完了することを推奨する。OpenClawの完全な設定に関する質問は、設定完全ガイドを参照してほしい。

References

OpenClaw Documentation. (2026). Voice & Audio — OpenClaw Official Docs. docs.openclaw.ai

ElevenLabs. (2025). API Documentation — ElevenLabs. docs.elevenlabs.io

OpenAI. (2024). Whisper — Large-Scale Weak Supervised Speech Recognition. OpenAI. openai.com

OpenClaw Documentation. (2026). Getting Started — OpenClaw Official Docs. docs.openclaw.ai

Scientific American. (2026). OpenClaw is an open-source AI agent that runs your computer. Scientific American. scientificamerican.com

OpenClaw Documentation. (2026). SAG (Speech-Audio Gateway) Configuration. docs.openclaw.ai

OpenClaw Documentation. (2026). Channels — Telegram Integration. docs.openclaw.ai

OpenClaw音声機能ガイド：ElevenLabs TTS＆Whisper音声認識の統合

1. 音声機能の概要

2. ElevenLabs TTS音声合成の設定

2.1 APIキーの取得

2.2 OpenClawの設定

2.3 ボイスの選択

3. Whisper音声認識の設定

3.1 OpenAI Whisperの統合

3.2 日本語音声認識の品質

4. 実践的な活用シナリオ

4.1 Telegram音声コマンド

4.2 音声レポート

4.3 アクセシブルなインタラクション

5. コスト試算

6. トラブルシューティング

まとめ

OpenClaw Agent設定完全ガイド：作成・設定から高度な管理まで

おすすめ記事

部署 OpenClaw
不到 1 分鐘

References

1. 音声機能の概要

2. ElevenLabs TTS音声合成の設定

2.1 APIキーの取得

2.2 OpenClawの設定

2.3 ボイスの選択

3. Whisper音声認識の設定

3.1 OpenAI Whisperの統合

3.2 日本語音声認識の品質

4. 実践的な活用シナリオ

4.1 Telegram音声コマンド

4.2 音声レポート

4.3 アクセシブルなインタラクション

5. コスト試算

6. トラブルシューティング

まとめ

OpenClaw Agent設定完全ガイド：作成・設定から高度な管理まで

ニュースレターを購読して最新インサイトを入手

関連インサイト

OpenClaw Telegram連携完全ガイド：Bot作成からリモートAIエージェント制御まで

OpenClaw設定完全ガイド：openclaw.jsonからモデル管理までのコア設定

OpenClaw Skillsシステム完全ガイド

おすすめ記事

OpenClaw Agent設定完全ガイド：作成・設定から高度な管理まで

OpenClaw Browser Agent完全ガイド：ウェブ操作からデータ抽出まで

OpenClaw Coding Agent完全ガイド：AIエージェントワークフローによるソフトウェア開発の自動化

OpenClaw CMDワンクリックインストール実践記録：install.cmdスクリプト分析、Onboard 2026.2.25新機能 & Gatewayフォアグラウンドモード完全記録

部署 OpenClaw 不到 1 分鐘

References

部署 OpenClaw
不到 1 分鐘