Key Findings
  • Browser Agent 是 OpenClaw 生態系中最受關注的 Skill 之一,讓 AI 代理能像人類一樣操作瀏覽器——點擊按鈕、填寫表單、擷取資料、截圖與導航[1]
  • 底層基於 Playwright 自動化框架,支援 Chromium、Firefox 與 WebKit 三大引擎,具備 Headless(無頭)模式,可在無圖形介面的伺服器上運行[4]
  • 與傳統爬蟲不同,Browser Agent 結合 LLM 的語意理解能力,能處理動態載入的 JavaScript 頁面、辨識驗證碼提示並適應頁面結構變化[3]
  • Computer Use 模式進一步擴展能力邊界——AI 不只操作瀏覽器,還能看懂螢幕畫面並據此決策[5]

一、Browser Agent 是什麼?

想像你有一個助手坐在電腦前,你告訴他「幫我到那個網站上查一下最新的報價」,他就會自己打開瀏覽器、導航到正確的頁面、找到報價資訊並回報給你。Browser Agent 做的就是這件事——只不過這個助手是 AI。[3]

OpenClaw 的 agent-browser Skill 賦予 AI 代理操作瀏覽器的能力,包括:

二、安裝與設定

2.1 安裝 agent-browser Skill

npx clawhub install agent-browser

安裝過程會自動下載 Playwright 及其瀏覽器引擎(Chromium)。首次安裝可能需要幾分鐘,取決於你的網路速度。[2]

2.2 驗證安裝

openclaw doctor

確認 agent-browser 出現在已安裝 Skill 清單中。如果 doctor 回報 Playwright 相關錯誤,執行:

npx playwright install chromium

2.3 Web Search 配置(選配)

如果你希望代理能主動搜尋網頁(而不只是操作你指定的 URL),需要額外配置 Web Search API:[8]

openclaw configure --section web

系統會引導你設定搜尋 API 金鑰(支援 Google、Bing 等搜尋引擎)。

三、基本操作指南

3.1 網頁資料擷取

最基本的用途——從網頁上提取特定資訊:

「打開 example.com/pricing,告訴我 Enterprise 方案的月費是多少」

代理會啟動瀏覽器、導航到頁面、掃描定價表並回覆你需要的資訊。

3.2 表單自動填寫

「到這個報名網站,幫我填寫姓名、電子郵件和公司名稱,
但不要按送出——截圖給我確認」

代理會填入資訊後截圖,讓你確認內容無誤後再由你決定是否送出。這是處理敏感表單操作時的最佳實踐。

3.3 多頁面比較

「分別打開這三家雲端服務的定價頁面,
比較他們 8 核心 32GB 方案的月費和包含的流量」

代理會依序訪問每個頁面、擷取相關數據,最後整理成比較表格回覆你。

四、進階場景

4.1 定時監控

搭配 Cron 功能,實現網頁內容的定時監控:

「每天早上 9 點,打開公司官網的所有頁面,
檢查有沒有任何頁面載入錯誤或顯示異常,
如果有問題就通知我」

4.2 截圖存證

「打開這五個競品的首頁,各截一張全頁截圖,
存到 ~/screenshots/ 目錄下並以日期命名」

適用於需要定期存檔網頁外觀的場景,例如法務存證或設計參考。

4.3 Computer Use 模式

搭配支援 Computer Use 的模型(如 Claude Opus 4.6),Browser Agent 可以進入「視覺理解」模式——AI 不只讀取 DOM 結構,還能看懂螢幕截圖並據此操作。[5]

這意味著代理可以處理傳統自動化工具無法應對的場景:

五、與傳統爬蟲的差異

特性Browser Agent傳統爬蟲(Scrapy 等)
動態內容完整支援(真實瀏覽器渲染)需額外設定 Selenium
頁面結構變化AI 自動適應CSS Selector 失效即中斷
操作複雜度自然語言指令需寫程式碼
擴展性單一代理逐頁操作可大規模並行
速度較慢(含 LLM 推理時間)極快
成本每次操作消耗 LLM Token幾乎免費

結論:Browser Agent 適合低頻率、高複雜度的網頁操作任務。如果你需要每天爬取上萬個頁面,傳統爬蟲仍然是更好的選擇。

六、安全注意事項

Browser Agent 本質上是讓 AI 控制一個真實的瀏覽器。以下風險需要特別關注:[6][7]

  1. 不要讓代理操作已登入的個人帳號:使用獨立的瀏覽器 Profile,避免代理存取你的密碼、Cookie 與個人資料
  2. 避免在代理可達的環境中儲存密碼:代理可能在操作過程中無意間讀取到自動填入的密碼
  3. 監控代理的瀏覽行為:透過 openclaw tail 即時觀察代理正在存取哪些網頁
  4. 設定 URL 白名單:限制代理只能存取你指定的網域,防止被惡意網頁內容引導至危險頁面
  5. 尊重 robots.txt:確保自動化操作符合目標網站的使用條款

結語

Browser Agent 讓 OpenClaw 從「命令列工具」進化為「能看網頁的 AI 助手」。[1] 無論是資料擷取、表單操作還是網頁監控,你只需要用自然語言描述目標,代理就會操作瀏覽器完成任務。

如果你想了解更多 OpenClaw 的實戰應用,建議參閱《使用案例完全指南》。需要設定定時自動化?請看《Cron 定時任務指南》