- Agentic Workflow 代表 AI 從「被動回應」到「自主決策」的範式轉移——Agent 能夠自行感知環境、制定計畫、呼叫工具並根據結果迭代修正,實現端對端的任務自動化
- ReAct 框架將推理(Reasoning)與行動(Acting)統一在交替迴圈中,是當前最廣泛採用的單一 Agent 設計模式;Plan-and-Execute 則透過分層架構將高層規劃與低層執行解耦,更適合長程複雜任務
- 記憶管理(短期、長期、工作記憶)與工具使用(Function Calling、MCP 協議)是 Agent 系統的兩大基礎設施,決定了 Agent 的上下文連貫性與真實世界操作能力
- 多代理協作(Multi-Agent Collaboration)透過角色分工、訊息傳遞與共識機制,將單一 Agent 的能力邊界擴展到團隊級別,MetaGPT 與 ChatDev 等框架已展示了軟體工程領域的初步成果
一、從對話到行動:Agentic AI 的範式轉移
過去三年間,大型語言模型(LLM)的應用從簡單的問答對話,快速演進為能夠自主完成複雜任務的 Agent 系統。這一轉變的核心在於:傳統的 LLM 應用是反應式的——使用者提問,模型回答,互動結束;而 Agentic Workflow 是自主式的——Agent 接收一個高層目標,便能自行規劃步驟、呼叫工具、評估中間結果,並根據反饋動態調整策略,直到任務完成[2]。
Wang 等人在其綜述研究中[2],將 LLM-based Agent 的核心架構歸納為四大模組:感知(Perception)、規劃(Planning)、行動(Action)與記憶(Memory)。這四個模組彼此協作,構成了一個完整的認知迴圈。感知模組負責接收並理解來自使用者與環境的輸入;規劃模組負責將複雜任務分解為可執行的子步驟;行動模組透過工具呼叫與外部世界互動;記憶模組則確保 Agent 在多步驟執行過程中維持上下文的連貫性。
Xi 等人的研究[3]進一步指出,Agentic AI 的崛起並非偶然——它是 LLM 能力突破、工具生態成熟、以及工程框架完善三者交匯的結果。當 LLM 的推理能力足以進行多步驟規劃、Function Calling 成為模型的原生能力、而 LangGraph 和 CrewAI 等框架降低了 Agent 開發的門檻時,Agentic Workflow 便自然而然地成為了 AI 應用的主流範式。
從商業價值的角度觀察,Agentic Workflow 的核心吸引力在於它能夠自動化「認知密集型」的工作流。過去需要分析師花費數小時完成的市場調研、需要工程師反覆迭代的程式碼審查、需要法務專員逐條比對的合約分析,現在都可以由 Agent 系統在數分鐘內完成初步成果。這並非取代人類,而是將人類從重複性的認知勞動中解放出來,讓專業人員能夠專注於更高層次的決策與創造。
二、ReAct 框架:推理與行動的統一
ReAct(Reasoning + Acting)是由 Yao 等人在 2023 年提出的 Agent 設計模式[1],其核心洞見簡潔而深刻:讓 LLM 在「思考」與「行動」之間交替進行,而非先完成所有思考再一次性行動。這種交織式的架構,使得 Agent 能夠根據每一步行動的實際結果來調整後續推理,大幅提升了在不確定環境中的魯棒性。
具體而言,ReAct 迴圈由三個階段構成:Thought(思考)——Agent 分析當前狀態,決定下一步應該做什麼;Action(行動)——Agent 呼叫外部工具執行具體操作;Observation(觀察)——Agent 接收工具回傳的結果,並將其納入後續的思考。這三個階段循環往復,直到 Agent 判斷已經蒐集到足夠的資訊來產生最終回答。
ReAct 的技術優勢在於它同時解決了兩個問題[1]。第一,純推理(如 Chain-of-Thought)缺乏與外部世界互動的能力,容易產生幻覺——Agent 可能「想像」出不存在的事實。ReAct 透過工具呼叫引入了真實世界的信號,為推理過程提供了事實基礎。第二,純行動(如傳統的 API 編排)缺乏靈活的推理能力——系統只能按預設的流程執行,無法應對意外情況。ReAct 的思考階段讓 Agent 能夠根據觀察到的異常情況動態調整策略。
以下是一個典型的 ReAct 執行軌跡:
目標:分析某公司 2025 年 Q4 財報並與同業比較
[Thought] 我需要先取得該公司的 Q4 財報數據。
[Action] search("公司名稱 2025 Q4 財報 營收 淨利")
[Observation] 營收 120 億,淨利 18 億,年增 15%。
[Thought] 已取得目標公司數據,現在需要同業數據來比較。
[Action] search("同業公司 2025 Q4 財報 營收")
[Observation] 同業 A 營收 95 億,同業 B 營收 140 億。
[Thought] 我可以計算市場份額並產出比較分析。
[Action] calculator("120 / (120 + 95 + 140) * 100")
[Observation] 33.8%
[Final Answer] 該公司 Q4 營收 120 億,市場份額約 33.8%...
在工程實踐中,ReAct 已成為多數 Agent 框架的預設模式——LangGraph 的 create_react_agent、LangChain 的 AgentExecutor、以及 CrewAI 的內部執行引擎,底層都遵循 ReAct 的思考-行動-觀察迴圈。這一框架的普及,標誌著 AI 社群對「推理與行動應該統一」這一設計原則的廣泛共識。
三、Plan-and-Execute:分層規劃架構
ReAct 的逐步推理在短程任務中表現出色,但在面對需要十幾個甚至數十個步驟的長程任務時,往往會出現方向偏移(goal drift)——Agent 在多輪交互後逐漸偏離原始目標。Plan-and-Execute 架構正是為了解決這一問題而提出的[10]。
Plan-and-Execute 的核心理念是將規劃(Planning)與執行(Execution)分離為兩個獨立的層級。高層的 Planner 負責接收使用者的目標,產生一個結構化的計畫(通常是一系列有序的子任務);低層的 Executor 負責逐一執行每個子任務,每完成一個步驟便回報結果給 Planner。Planner 根據回報的結果,決定是繼續執行下一步、修改後續計畫、還是重新規劃整個策略。
這種分層架構帶來了三個關鍵優勢。首先是全局一致性——Planner 始終持有整體計畫的視圖,不會因為局部的工具呼叫結果而迷失大方向。其次是計畫可修正性——當某個子任務失敗或產生意外結果時,Planner 可以動態修改後續步驟,而不需要從頭開始。最後是可解釋性——結構化的計畫使得人類審核者能夠在 Agent 執行之前檢視並修改計畫,這對於企業級應用至關重要。
Sumers 等人在其認知架構研究中[10],將 Plan-and-Execute 類比為人類的「前額葉皮質」功能——負責設定目標、分解任務、監控執行進度。這種認知層次的分離,使得 Agent 能夠同時在抽象層面(策略性思考)和具體層面(操作性執行)上有效運作。
在實作層面,LangGraph 提供了原生的 Plan-and-Execute 模式:開發者可以建立一個「Planner 節點」負責產生計畫,一個「Executor 節點」負責執行子任務,以及一個「Replanner 節點」負責根據執行結果調整計畫。這三個節點構成的迴圈,比單純的 ReAct 更適合處理需要長期策略規劃的企業任務,例如多階段的盡職調查、跨部門的專案管理、或多步驟的資料分析流程。
四、記憶管理:短期、長期與工作記憶
記憶是 Agent 系統中最容易被低估、卻對實際效能影響最深遠的模組。一個沒有有效記憶管理的 Agent,就像一個每隔幾分鐘就會失憶的助手——它可能反覆詢問相同的問題、忘記之前已經蒐集到的資訊、或者無法從過去的錯誤中學習[3]。
借鑒認知科學的框架,Agent 的記憶可以分為三類[10]:
短期記憶(Short-term Memory)對應的是 LLM 的上下文視窗(Context Window)。它存儲了當前對話或任務的即時資訊,包括使用者的指令、工具呼叫的結果、以及 Agent 的中間推理過程。短期記憶的主要限制是容量——即使是最先進的模型,上下文視窗也是有限的。當一個複雜任務的執行軌跡超過上下文視窗時,早期的資訊會被截斷,導致 Agent 失去關鍵的上下文。
長期記憶(Long-term Memory)是 Agent 跨會話、跨任務的持久化知識庫。實作方式通常是向量資料庫(如 Pinecone、Weaviate)或結構化資料庫。Agent 可以將重要的觀察、學習到的模式、使用者的偏好等資訊寫入長期記憶,並在後續任務中透過語義檢索召回相關知識。Park 等人的生成式代理研究[5]展示了一個精巧的長期記憶系統——每個代理維護一個「記憶流」,系統根據時近性(recency)、重要性(importance)與相關性(relevance)三個維度對記憶進行排序與檢索。
工作記憶(Working Memory)是短期記憶的精煉版本。它不是存儲所有的原始對話歷史,而是維護一個經過壓縮與結構化的「任務狀態摘要」。例如,一個研究型 Agent 的工作記憶可能包含:「已蒐集的數據點清單」「待驗證的假設」「當前的分析進度」。工作記憶的目的是在有限的上下文空間中,最大化 Agent 可利用的資訊密度。
在工程實踐中,有效的記憶管理策略通常結合三者:使用短期記憶處理即時交互,使用工作記憶維護任務狀態,使用長期記憶累積跨任務的知識。LangGraph 的 Checkpointer 機制在工作記憶層面提供了良好的支援,而向量資料庫的整合則解決了長期記憶的需求。
五、工具使用:讓 Agent 操作真實世界
如果說 LLM 是 Agent 的「大腦」,那麼工具(Tools)就是 Agent 的「手腳」。沒有工具的 Agent 只能基於訓練資料進行推理,無法獲取即時資訊、無法執行計算、更無法操作外部系統。工具使用能力是 Agent 從「語言模型」蛻變為「自主系統」的關鍵轉折點[2]。
從技術實作的角度,工具使用涉及三個核心環節。工具選擇——Agent 必須根據當前的任務需求,從可用的工具集中選擇最適合的工具。當工具數量較少時,LLM 可以直接在 prompt 中列舉所有工具的描述;當工具數量超過數十個時,則需要建立工具的語義索引,透過檢索匹配的方式動態載入相關工具。參數生成——Agent 必須產生符合工具 schema 的結構化輸入(通常是 JSON 格式)。現代 LLM 的 Function Calling 功能已大幅提升了參數生成的準確度,但在面對複雜的巢狀結構或模糊的使用者指令時,仍然會出現參數錯誤。結果解析——Agent 必須理解工具回傳的結果,並將其整合到後續的推理過程中。
AutoGPT[7]是最早引起廣泛關注的自主 Agent 實驗之一,它展示了一個 Agent 如何透過串連網路搜尋、檔案操作、程式碼執行等工具,自主完成複雜任務。雖然 AutoGPT 在可靠性方面仍有不足,但它驗證了工具使用在 Agentic Workflow 中的核心地位。
近年來,Anthropic 提出的 Model Context Protocol(MCP)正在為 Agent 的工具生態帶來標準化的變革。MCP 定義了一套通用的協議,讓任何工具提供者都可以用統一的介面向 Agent 暴露其功能,而 Agent 則可以透過標準化的方式發現、呼叫與管理工具。這種協議層級的標準化,有望解決目前各框架工具介面互不相容的問題,大幅降低工具整合的工程成本。
在企業場景中,工具使用的安全性是一個不可忽視的議題。Agent 呼叫的工具可能涉及資料庫寫入、API 調用、甚至財務交易等不可逆操作。因此,生產級 Agent 系統必須建立嚴格的權限控制機制——定義哪些工具需要人類審核後才能執行、哪些操作需要二次確認、以及在出現異常時的回滾策略。
六、多代理協作:分工、溝通與共識
單一 Agent 的能力終究有其上限——當任務的複雜度超過一個 Agent 的處理能力時,將任務分配給多個專業化的 Agent 協同完成,便成為了自然的擴展方向。多代理協作(Multi-Agent Collaboration)是 Agentic Workflow 從「個體智能」邁向「集體智能」的關鍵一步[4]。
多代理協作的設計空間可以從三個維度來理解。分工模式定義了任務如何在 Agent 之間分配。最直接的方式是靜態分工——每個 Agent 預先被指定負責特定類型的子任務(例如研究員負責蒐集資料、分析師負責數據分析、作家負責報告撰寫)。更進階的方式是動態分工——由一個「管理者 Agent」根據任務特性和各 Agent 的當前狀態,即時決定任務分配。MetaGPT[8]採用了一種有趣的混合策略:借鑒軟體工程的標準化流程,將 Agent 組織為產品經理、架構師、工程師、測試員等角色,每個角色有明確的職責定義與交付物規格。
溝通機制決定了 Agent 之間如何交換資訊。Wu 等人在 AutoGen 中[4]採用了對話驅動的溝通模式——Agent 之間透過自然語言對話來分享觀察、提出質疑、達成共識。這種模式直覺且靈活,但可能導致冗長的對話和 token 消耗。MetaGPT[8]則引入了「結構化訊息」的概念——Agent 之間交換的不是自由形式的對話,而是預定義格式的文件(如需求文件、設計文件、程式碼),大幅提升了溝通效率。
共識與衝突解決是多代理系統中最具挑戰性的環節。當兩個 Agent 對同一問題得出矛盾的結論時,系統需要一套機制來裁決衝突。常見的策略包括:投票制(多數決)、權威制(由特定的仲裁 Agent 裁決)、以及辯論制(讓衝突雙方各自提出論據,再由第三方 Agent 判斷)。ChatDev[9]在其軟體開發流程中展示了一種對話式的共識機制,設計師與工程師透過多輪溝通逐步對齊需求理解,有效降低了因溝通不良導致的返工。
從實踐經驗來看,多代理系統的設計原則是「能用單一 Agent 解決的問題,不要用多個 Agent」。引入多 Agent 會帶來通訊開銷、協調複雜度、以及調試難度的顯著增加。只有當任務確實需要多種專業能力的整合,且單一 Agent 無法在合理的上下文長度內完成時,多代理協作才是正當的選擇。
七、Reflexion:自我反思與學習
人類之所以能夠持續進步,很大程度上依賴於從失敗中學習的能力——我們會回顧自己的錯誤、分析失敗的原因、並在下次嘗試中避免重蹈覆轍。Shinn 等人提出的 Reflexion 框架[6],正是將這種自我反思能力引入 AI Agent 的系統性嘗試。
Reflexion 的運作機制包含三個關鍵組件。Actor 是負責執行任務的 Agent,它根據當前的環境狀態與記憶產生行動。Evaluator 負責評估 Actor 的執行結果——判斷任務是否成功完成、哪些部分做得好、哪些部分需要改進。Self-Reflection 模組則是核心創新——它將 Evaluator 的回饋轉化為自然語言形式的反思摘要(例如:「我在上次嘗試中犯了一個錯誤:直接搜尋了整個問題,應該先將問題分解為子問題再逐一搜尋」),並將這些反思存入長期記憶。在後續的任務執行中,Agent 會從記憶中檢索相關的反思,避免重複相同的錯誤。
Reflexion 最引人注目的特點是它不需要更新模型權重——所有的學習都透過自然語言的反思摘要完成,存儲在外部記憶中。這意味著 Agent 可以在部署後持續學習,而不需要昂貴的模型微調或重新訓練。Shinn 等人的實驗顯示[6],在程式碼生成任務中,經過三到五輪反思迭代的 Agent,成功率從 baseline 的 67% 提升至 91%,展示了自我反思機制的巨大潛力。
在 Agentic Workflow 的語境中,Reflexion 可以被整合到 ReAct 或 Plan-and-Execute 的外層迴圈中。具體而言,Agent 首先使用 ReAct 嘗試完成任務;如果失敗,Reflexion 模組介入分析失敗原因,產生反思摘要;Agent 在下次嘗試時將反思納入考量,調整策略。這種「嘗試→反思→重試」的迴圈,使得 Agent 即使在初次嘗試中失敗,也能在後續迭代中逐步收斂到正確的解決方案。
然而,Reflexion 也面臨一些限制。首先,自我反思的品質高度依賴 LLM 的元認知能力——模型需要能夠準確地識別自己的錯誤,而不是產生錯誤的反思。其次,過多的反思記憶可能引入噪音,干擾後續的決策。在工程實踐中,建議對反思記憶設定容量上限,並定期進行清理與整合。
八、企業級 Agent 系統設計原則
從實驗室的概念驗證到生產環境的可靠部署,Agent 系統需要跨越一道工程鴻溝。根據我們在超智諮詢協助企業客戶導入 Agent 技術的經驗,以下設計原則是建構企業級 Agent 系統的關鍵[2][3]。
原則一:漸進式自主(Graduated Autonomy)。不要試圖一步到位地建構一個完全自主的 Agent。從人類主導、Agent 輔助的模式開始(例如 Agent 產生建議,人類確認後執行),逐步擴大 Agent 的自主權限。這樣做的好處是:團隊可以在低風險的環境中逐步建立對 Agent 的信任,同時持續收集真實的執行數據來改進系統。
原則二:護欄優先(Guardrails First)。在設計 Agent 的行動空間時,優先定義「不能做什麼」而非「能做什麼」。這包括:輸入驗證(拒絕明顯不合理的任務指令)、輸出過濾(攔截可能包含敏感資訊的回應)、行動限制(為高風險操作設定人類審核閘門)、以及費用控制(設定單次任務的最大 token 消耗或 API 呼叫次數)。護欄的設計原則是「寧嚴勿鬆」——可以在驗證安全性後逐步放寬,但一開始就過於寬鬆的設計可能導致難以挽回的後果。
原則三:可觀測性(Observability)。生產級 Agent 系統必須具備完整的可觀測性——每一步的推理過程、工具呼叫的輸入與輸出、決策的依據與結果,都需要被記錄與追蹤。這不僅是為了調試(當 Agent 的行為不如預期時,能夠快速定位問題),更是為了合規(在受監管的行業中,企業需要能夠向監管機構解釋 AI 系統的決策邏輯)。LangSmith 與 Phoenix 等工具提供了 Agent 級別的可觀測性平台,值得在生產環境中導入。
原則四:容錯與降級(Fault Tolerance and Graceful Degradation)。Agent 系統的每一個外部依賴(LLM API、搜尋服務、資料庫)都可能失敗。設計時必須考慮:API 呼叫失敗時的重試策略與指數退避(exponential backoff)、LLM 回應格式不合預期時的解析容錯、工具呼叫超時時的降級方案(例如跳過該步驟或使用快取結果)、以及整體任務失敗時的回滾機制。
原則五:成本效益最佳化。多 Agent 系統的 token 消耗可能非常可觀——Agent 之間的每一輪對話都會消耗 prompt 和 completion token。工程實踐中的最佳化策略包括:使用較小的模型(如 GPT-4o-mini)處理簡單的子任務,僅在需要深度推理時調用頂級模型;對工具呼叫結果進行快取以避免重複查詢;設定對話輪次上限以防止 Agent 陷入無限迴圈。
九、結語與展望
Agentic Workflow 代表了 AI 應用從「對話式」到「行動式」的根本性轉變。從 ReAct 的推理-行動迴圈,到 Plan-and-Execute 的分層規劃,再到多代理協作的集體智能,Agent 系統的能力邊界正在以驚人的速度擴展[2]。Reflexion 的自我反思機制更為 Agent 的持續學習提供了優雅的解決方案[6]。
然而,我們也必須清醒地認識到當前的局限。Agent 系統的可靠性仍然不夠穩定——在長程任務中,LLM 的推理偏差會逐步累積,導致不可預期的行為。多代理系統的調試極其困難——當多個 Agent 在複雜的拓撲中互動時,追蹤問題的根因往往需要大量的日誌分析。安全性與合規性的挑戰也隨著 Agent 自主權的擴大而愈發嚴峻。
展望未來,我們看到三個匯聚的趨勢正在重塑 Agentic AI 的版圖。第一,Agent 原生模型的崛起——下一代 LLM 將從預訓練階段就針對 Agent 場景最佳化,包括更精確的工具呼叫、更穩健的多步驟規劃、以及原生的記憶管理能力。第二,工具生態的標準化——以 MCP 為代表的開放協議正在為 Agent 的工具使用建立通用標準,這將催生一個蓬勃的工具市集,讓 Agent 能夠即插即用地獲取新能力。第三,Agent 即服務(Agent-as-a-Service)的商業模式——企業將不需要從零建構 Agent 系統,而是可以透過 API 呼叫預建構的專業 Agent 來完成特定任務。
對於台灣企業而言,Agentic Workflow 提供了一個前所未有的機會——透過 Agent 系統自動化知識密集型的工作流程,在不大幅增加人力成本的情況下,顯著提升營運效率與決策品質。無論你是從一個簡單的 ReAct 工具呼叫 Agent 開始,還是直接挑戰多代理協作的複雜場景,關鍵在於現在就開始動手。在 Agent 技術快速演進的當下,實戰經驗的累積遠比理論知識的堆疊更有價值。
如果你的團隊正在評估 Agentic Workflow 的導入方案,或希望深入了解特定的 Agent 設計模式,歡迎與我們聯繫。我們的博士研究團隊持續追蹤 Agent 架構的最新進展,能夠協助你從概念驗證到生產部署的完整旅程。