高馬爾
一個信息發佈的網站

草稿鏈代替思維鏈,推理token砍掉80%,顯著降低算力成本和延遲

今天小編(惠惠君)要和大家分享的是草稿鏈代替思維鏈,推理token砍掉80%,顯著降低算力成本和延遲,歡迎閲讀~

推理 token 減少 80%-90%,準确率變化不大,某些任務還能增加。

Zoom 團隊提出思維鏈替代品 " 草稿鏈 ",顯著降低延遲和算力成本。

原理很簡單,要求模型為每個推理步驟生成簡潔、信息密集的 token。

這一思路受到人類解題過程啓發,人類通常不會詳細闡述每一個細節,只是簡單幾下關鍵的中間結果,作為草稿來輔助思考。

此外,草稿鏈方法簡單且易于實現,不需要修改模型、微調或強化學習,只需更新提示詞中的示例即可,相關代碼和數據已在 GitHub 上開源。

研究團隊認為,與另一種降低延遲和計算成本的方法 " 在連續潛空間推理 " 相比,草稿鏈保留了可解釋性,且可以應用于閉源的黑盒模型。

第三方分析測算,對于每個月處理 100 萬個推理請求的企業, 可以将成本從思維鏈的 3800 美元降低到 760 美元,每月節省超過 3000 美元。

實驗遵循原始思維鏈論文,評估 3 類任務:算術推理、常識推理和符号推理。

算數推理任務選擇 GSM8k 數據集,從準确率看,标準提示下 GPT-4o 和 Claude 3.5 Sonnet 的準确率分别僅 53.3% 和 64.6%,思維鏈使兩者均超 95%,草稿鏈也達到 91% 左右。

在 token 使用上,思維鏈生成約 200 個 token/ 響應,草稿鏈僅約 40 個,減少約 80%。

延遲方面,草稿鏈使 GPT-4o 和 Claude 3.5 Sonnet 的平均延遲分别降低 76.2% 和 48.4%。

常識推理選擇 BIG-bench 的日期理解和運動理解任務也取得了相似的結果,特别值得注意的是 Claude 3.5 Sonnet 在草稿鏈下準确率還有所上升。

符号推理選擇抛硬币任務,由于原數據集未公開,作者合成了 250 個示例的測試集。

草稿鏈在保持 100% 準确率的情況下大幅減少了推理 token 和延遲。

但草稿鏈方法也有一定的局限性:在零樣本設定下有效性會顯著下降。

此外,在參數量小于 30 億的小模型上,雖然草稿鏈仍能有效減少每個回答所需的 token 數并提高準确率,但與思維鏈相比,性能差距更大。

研究團隊推測,可能是由于訓練數據中缺乏草稿鏈風格的推理模式,在不提供 few-shot 樣本指導的情況下,很難生成簡潔而有幫助的 " 草稿 "。

論文地址:

https://arxiv.org/abs/2502.18600v2

參考鏈接:

[ 1 ] https://ajithp.com/2025/03/02/chain-of-draft-llm-prompting/

關于草稿鏈代替思維鏈,推理token砍掉80%,顯著降低算力成本和延遲就分享完了,您有什麼想法可以聯系小編(惠惠君)。