Agent太火！看這一篇綜述，知識就不會學雜了

今天小編(謝飛揚)要和大家分享的是Agent太火！看這一篇綜述，知識就不會學雜了,歡迎閲讀~

火，Agent 可太火了！關于 Agent 的進展俯拾皆是，根本看不過來……

看過來——這篇綜述可能能幫你厘清很多問題：

來自華東師大和東華大學的研究團隊發表了 "A Survey on the Optimization of Large Language Model-based Agents（大模型智能體的優化方法綜述）"，首次從系統化視角對 LLM 智能體優化策略進行了全面梳理與分析。

論文将将現有方法劃分為兩大類：參數驅動的優化與參數無關的優化。

前者包括基于監督微調、強化學習（如 PPO、DPO）以及微調與 RL 結合的混合策略，重點讨論了軌迹數據構建、獎勵函數設計、優化算法等關鍵模塊。

後者則涉及通過 Prompt 工程、外部工具調用、知識檢索等方式在不修改模型參數的前提下優化 Agent 行為。

除此之外，作者們還整理了主流的 Agent 微調與評估數據集，回顧了 LLM Agent 在醫療、科學、金融、編程等多個應用領網域的代表性實踐。

最後，研究團隊總結了 Agent 當前面臨的關鍵挑戰與未來研究方向。

為什麼我們需要專門優化 LLM 智能體？

近年來，随着 GPT-4、PaLM 和 DeepSeek 等大型語言模型不僅在語言理解和生成上表現出色，更在推理、規劃和復雜決策等方面展現出非凡的能力。

因此，越來越多的研究者開始嘗試将 LLM 作為智能體來使用，探索其在自動決策和通用人工智能方向的潛力。

與傳統的強化學習智能體不同，LLM 智能體不依賴顯式的獎勵函數，而是通過自然語言指令、Prompt 模板與上下文學習（ICL）完成復雜任務。

這種 " 文本驅動 " 的智能體範式展現出極高的靈活性與泛化能力，能夠跨任務理解人類意圖、執行多步驟操作，并在動态環境中做出決策。

當前，研究者已嘗試通過任務分解、自我反思、記憶增強以及多智能體協作等方式提升其表現，應用場景涵蓋軟體開發、數學推理、具身智能、網頁導航等多個領網域。

值得注意的是，LLM 本身的訓練目标是預測下一個 token，并非為長期規劃和互動學習的 Agent 任務而生。

這也導致了 LLM 作為 Agent 的部分挑戰：

長程規劃與多步推理能力不足，容易在復雜任務中出現累積錯誤；

缺乏持續性記憶機制，難以基于歷史經驗進行反思與優化；

對新環境的适應能力有限，難以動态應對變化場景。

尤其是開源 LLM 在 agent 任務中的表現普遍落後于 GPT-4 等閉源模型，而閉源模型的高成本與不透明性，也使得優化開源 LLM 以提升 Agent 能力成為當前研究的關鍵需求。

當前已有的綜述要麼聚焦于大模型優化本身，要麼只讨論 agent 的局部能力（如規劃、記憶或角色扮演），并未将 "LLM 智能體優化 " 作為一個獨立且系統的研究方向進行深入探讨。

研究團隊填補了這一空白，首次以 "LLM-based Agent 的優化技術 " 為核心議題展開系統綜述，構建統一框架，歸納方法路徑，并對比不同技術的優劣與适用情境。

參數驅動的 LLM 智能體優化

在參數驅動的 LLM 優化中，作者将其分為 3 個方向。

基于常規微調的優化

第一個方向，基于常規微調的優化。

又分為 2 大步驟：構建 Agent 任務的高質量軌迹數據——用軌迹微調 Agent。

首先是數據獲取與生成。

高質量的軌迹數據構建開始于初始數據的獲取和生成，這不僅需要一組多樣化的軌迹，還需要與目标任務充分對齊，以确保有效的學習。

作者将主流方法歸納為以下四類：

專家标注數據：由人類專家手工設計，質量高、對齊強，是微調的黃金标準。但人力成本高、難以擴展，常作為優質補充數據使用。

強 LLM 自動生成數據：利用 GPT-4 等大模型結合 ReAct、CoT 策略生成軌迹，效率高、适合大規模構建。但數據依賴大模型，存在成本高、偏差傳播等問題。

Agent 自主探索數據：通過開源模型自主與環境互動生成軌迹，成本低、可擺脱閉源依賴。缺點是探索能力有限，需配合後續篩選機制去除低質數據。

多智能體協作生成數據：通過多個 Agent 協同完成復雜任務流程，提升數據多樣性與互動復雜度。但系統設計更復雜，穩定性和資源成本也是挑戰。

其次，數據的評估與過濾。

由于生成的軌迹數據質量參差不齊，對數據進行評估和篩選成為不可或缺的一步。

作者将主流方法歸納為三類：

基于環境的評估：這類方法依靠任務是否成功、環境獎勵等外部反饋來判斷軌迹質量，易于實現，自動化程度高。但缺點是反饋信号過于粗粒度，只關注最終結果，無法發現推理鏈條中的隐性錯誤。

基于人工或規則的評估：通過預設規則（如任務完成度、答案一致性、多樣性等）或專家人工審核，對數據進行更精細的質量控制。适配性強、準确性高，但也需要大量人工參與與復雜設計。

基于模型的評估：借助強大的 LLM（如 GPT-4）對軌迹進行自動打分與分析，能從相關性、準确性、完整性等維度進行多層評估，構建自動化質量評估框架。缺點在于，評估本身依賴模型，可能引入新的偏差。

接着是低質量樣本的利用。

除了高質量的獲取，對不合格的低質量軌迹也需要再次利用。

目前的主流策略包括：

對比式利用：通過對比正确與錯誤樣本，讓模型更清晰地識别哪些行為是有效的。

錯誤修正型方法：識别并修正失敗軌迹，将其轉化為可學習的數據，提升訓練質量。

直接利用錯誤樣本：不做修正，直接用失敗案例訓練模型，提升其面對錯誤情境時的容錯性。

完成高質量軌迹數據構建後，下一步就是關鍵的微調階段。

通過微調，讓開源大模型真正适應 Agent 任務，學會規劃、推理與互動，是優化 LLM 智能體不可或缺的一步。

值得注意的是，僅用 Agent 任務軌迹微調可能會削弱 LLM 的通用能力。

因此，大多工作選擇混合通用指令數據與 Agent 軌迹共同訓練，以在保留語言基礎能力的同時，提升 Agent 執行能力。

作者将現有的微調方法劃分為三大類：

标準 SFT：最常見的方法，通過高質量指令 - 輸出對或軌迹數據，對模型進行全參數優化，最能對齊目标任務。此外，模仿學習中的行為克隆本質上也屬于這一類，強調從專家軌迹中學習決策策略。

參數高效微調（如 LoRA/QLoRA）：只更新少量參數，其餘權重保持不動，顯著降低顯存與算力開銷，在大模型 Agent 微調中尤為常見。相比全量微調，雖然訓練開銷更小，但性能往往可媲美甚至超過

自定義微調策略：為特定任務設計的微調方法，例如将通用指令與軌迹數據混合訓練，或引入額外約束項（如正則化）提升泛化與穩定性。這類方法更具靈活性，适合復雜或稀缺任務場景。

基于強化學習的優化

相比于傳統的微調方式，強化學習為 Agent 帶來了更具主動性的學習路徑。

它讓模型不再只是 " 模仿 "，而是能在環境中探索行為、接受獎勵與懲罰，動态調整策略，真正實現從試錯中成長。

作者将當前 RL 優化方式分為：基于獎勵函數的優化和基于偏好對齊的優化。

先説基于獎勵函數的優化。

在強化學習優化中，獎勵函數就像智能體的指揮棒，引導模型不斷改進策略。通過設定清晰的 " 做得好 vs 做錯了 " 标準，Agent 可以從互動中學習得更精細、更穩健。

作者将當前方法按照三類獎勵來源劃分 3 類：

基于環境的獎勵：直接依據任務是否完成來打分，簡單直觀，自動化程度高。但往往只關注最終結果，忽略了中間步驟的質量。

基于模型的獎勵：由 LLM 或輔助模型對軌迹進行評估，适用于環境反饋稀疏的場景，能提供更細致的反饋。但效果取決于評估模型的質量。

自定義獎勵函數：研究者根據任務需求自設多維度獎勵，不僅考核完成度，也關注策略穩定性、協作效率等。靈活強大，但設計成本高、難以泛化。

再來看基于偏好對齊的優化。

相比傳統 RL 基于獎勵函數的訓練方式，偏好對齊提供了更直接、更輕量的優化路徑。

它不再依賴繁瑣的獎勵建模，而是讓 Agent 學會 " 哪種行為更受人類歡迎 "。

其代表方法是 DPO，一種更簡單的離線強化學習方式，直接通過人類或專家的偏好對樣本進行 " 正負對比 " 訓練。

根據主要偏好數據來源，作者将其這類優化方法分為兩類：

專家 / 人工偏好數：基于專家示範或人類标注構造正負樣本（優質 vs 錯誤軌迹），質量高但難以大規模擴展，覆蓋面有限。

任務或環境反饋：從任務表現（成功率、分數等）中自動構建偏好對，适用于動态任務場景，但依賴反饋機制合理的設計。

綜合來看，偏好對齊方法訓練高效、部署簡單，但強依賴偏好數據質量與覆蓋範圍，适合結構明确、反饋清晰的任務場景。

而獎勵函數類方法更适配復雜多變的環境，但成本更高。

混合參數微調方法

單一的優化方法各有短板——常規微調穩定高效但缺乏動态應變能力，RL 靈活強大卻計算開銷巨大。

于是，越來越多研究開始探索混合微調策略，結合兩者優點，構建更強大的 LLM 智能體。

這類工作主要為：

第一，順序式兩階段訓練。

這也是是當前的主流方法，采取 " 先 SFT、後 RL" 的思路。

階段一：行為克隆微調（SFT），用專家軌迹或策展數據預訓練模型，奠定基礎能力；

階段二：強化學習優化（PPO / DPO），針對環境或偏好精調模型策略。

第二，交替優化。

即引入迭代交替機制，在 SFT 和 RL 之間多輪來回切換，以實現細粒度提升。

參數無關的 LLM 智能體優化

相比參數微調，參數無關的優化方法不涉及模型權重更新，而是通過調整 Prompt、上下文和外部信息結構，在資源受限或輕量部署場景中展現出強大潛力。

作者将其分為五類核心策略：

第一類，基于經驗的優化。

通過記憶模塊或歷史軌迹，讓 Agent" 學會復盤 "，從過去成功與失敗中提煉策略，增強長期适應性。

第二類，基于反饋的優化。

Agent 通過自我反思或外部評估不斷修正行為，形成迭代閉環；還有方法通過元提示優化調整全局指令結構，提升泛化能力。

第三類，基于工具的優化。

讓 Agent 學會使用工具（如搜索、計算器、API）以增強執行力。部分方法優化工具調用策略，部分則訓練 Agent 構建更高效的任務 - 工具路徑。

第四類，基于 RAG 的優化。

結合檢索與生成，通過從數據庫 / 知識庫中實時獲取信息增強推理過程，尤其适合知識密集型任務和變化快速的場景。

第五類，多 Agent 協作優化。

多個 LLM Agent 協同完成任務，通過角色分工、信息共享與反饋機制實現 1+1>2 的協同智能。

參數無關優化，讓 LLM Agent 在不動模型的前提下，變得更 " 聰明 "、更 " 适應 "、也更 " 輕巧 "。

數據集與基準

作者将數據和基準分為用于評估和微調的兩個大類。

評估任務分為兩類。

第一類，通用評估任務。

即按一般任務領網域分類，如數學推理，問題推理（QA）任務，多模态任務，編程等。

第二類，多任務評估基準。

跨各種任務評估基于 LLM 的智能體，測試它們概括和适應不同領網域的能力。

Agent 微調數據集，則是針對 Agent 微調而精心設計的數據，以提高 LLM Agent 在不同任務和環境中的能力。

應用

随着優化方法的不斷成熟，基于 LLM 的智能體已在多個真實場景中嶄露頭角，逐漸從實驗室走向實際應用：

挑戰與未來方向

數據偏差問題。

Agent 高度依賴數據質量，然而預訓練數據與微調軌迹分布不匹配，再加上 LLM 自身生成與評估帶來的潛在偏差，易導致性能不穩定。

未來可探索偏差測試、對抗訓練、知識邊界評估等方法，構建更穩健的數據基礎。

算法效率與适應性。

當前強化學習與微調方法在面對稀疏獎勵、大動作空間、多步互動時存在成本高、效果差的問題。

如何提升 DPO 等輕量方法的多輪能力，或探索 RL+SFT 的混合訓練、元學習、自監督方法，将是未來重點。

跨任務跨領網域遷移難。

許多方法在單一任務上表現優秀，但在新環境或真實世界中易失效。

需要發展更強的泛化機制，如任務分布對齊、網域适應、多任務聯合訓練等，提升模型遷移與适應能力。

缺乏統一評估标準。

Agent 在不同任務（如數學推理、網頁導航、具身 AI）中使用不同指标，難以橫向比較。

建立統一的評估基準，引入推理復雜度、适應性與偏好評分等新維度，将推動 Agent 研究向更系統、可比的方向發展。

參數驅動的多智能體優化缺失。

目前多智能體策略多依賴凍結 LLM，缺乏聯合參數訓練機制，限制了協同智能的發展。

未來應探索多智能體聯合微調、獎勵共享機制、層級控制策略，提升整體系統能力與協作水平。

arXiv 鏈接：

https://arxiv.org/abs/2503.12434

GitHub 鏈接：

https://github.com/YoungDubbyDu/LLM-Agent-Optimization

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

學術投稿請于工作日發郵件到：

ai@qbitai.com

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點亮星标

科技前沿進展每日見

關于Agent太火！看這一篇綜述，知識就不會學雜了就分享完了，您有什麼想法可以聯系小編(謝飛揚)。

相關推薦