高馬爾
一個信息發佈的網站

27個大模型混戰電商領網域,DeepSeek-R1&V3仍是最強

今天小編(佼昌翰)要和大家分享的是27個大模型混戰電商領網域,DeepSeek-R1&V3仍是最強,歡迎閲讀~

全面評估大模型電商領網域能力,首個聚焦電商基礎概念的可擴展問答基準來了!

ChineseEcomQA,來自淘天集團。

此前,大模型常因生成事實性錯誤信息而受限,而傳統基準又難以兼顧電商任務的多樣性與領網域特殊性。

但随着大模型在電商領網域的廣泛應用,如何精準評估其對專業領網域知識的掌握成為關鍵挑戰。

為此,ChineseEcomQA 針對性進行了 3 大核心設計:

基礎概念覆蓋:覆蓋 20 大行業,聚焦 10 類核心電商概念(如行業分類、品牌屬性、用户意圖等),包含 1800 組高質量問答,适配多樣電商任務;

混合數據構建:融合 LLM 生成、檢索增強(RAG)與人工标注,确保數據質量與領網域專業性;

平衡評估維度:兼顧行業通用性與專業性,支持精準領網域能力驗證。

ChineseEcomQA 構建流程

從電子商務基本元素(用户行為、商品信息等)出發,團隊總結出電子商務概念的主要類型。

最終定義了從基礎概念到高級概念的 10 個子概念(具體詳見論文):

行業分類、行業概念、類别概念、品牌概念、屬性概念、口語概念、意圖概念、評論概念、相關性概念、個性化概念。

然後,研究人員采用混合的數據集構建過程,結合 LLM 驗證、RAG 驗證和嚴格的人工标注,确保基準符合三個核心特性:

專注基礎概念

電商知識通用性

電商知識專業性

具體來説,構建 ChineseEcomQA 主要分為自動化問答對生成和質量驗證兩個階段。

第一階段,問答對生成。

研究者收集了大量知識豐富且涵蓋各種相關概念的電子商務語料庫。

然後,提示大模型(GPT-4o)根據給定的内容忠實地生成問答對;對于比較開放的問題,要求大模型同時提供非常混亂和困難的候選答案。

從而自動化地構建出大量問答對作為初始評測集。

第二階段,質量驗證。

我們開發了一個多輪自動化流程對生成的問答對進行驗證,重新生成或過濾不符合标準的問題。

具體包括大模型驗證、電子商務通用知識驗證、電子商務專業知識驗證、電子商務事實性驗證、難度篩選、人工驗證。

經過多重嚴格篩選,最終得到均勻覆蓋 10 大類電商子概念的 1800 條高質量問答對作為終版數據集。

DeepSeek-R1 和 V3 表現最佳

評估了 11 個閉源模型和 16 個開源模型,得出如下排名榜:

(注:對于子概念,IC、IDC、CC、BC、AC、SC、ITC、RVC、RLC 和 PC 分别代表 " 行業分類 "" 行業概念 "" 類别概念 "" 品牌概念 "" 屬性概念 "" 口語概念 "" 意圖概念 "" 評論概念 "" 相關性概念 " 和 " 個性化概念 ")

總的來看,DeepSeek-R1 和 DeepSeek-V3 是表現最好的模型,展示了強大的基礎模型(推理模型)在電子商務領網域的巨大潛力。

此外,研究團隊對主流模型表現分析并得出了以下發現:

更大的模型在高級電商概念上表現更好,遵循 Scaling Law,但小模型在特定電商任務上仍面臨顯著挑戰。

中文社區模型(如 Qwen 系列、GLM-4)在電商場景适應性上表現突出,尤其是在高級電子商務概念上。雖然 O1-preview 在基本概念上表現更好,但在更高級的概念上面臨困難。

某些類型的電子商務概念(如相關性概念)仍然對 LLM 構成重大挑戰。大參數量模型由于其強大的通用能力,可以泛化到電商任務上,而小參數量模型則更有困難。這些特點體現了專門開發電商領網域模型的必要性。

Deepseek-R1-Distill-Qwen 系列的表現不如原始的 Qwen 系列,主要原因是在推理過程中引入知識點錯誤,進而導致最終結論出錯。

開源模型和閉源模型之間的性能差距很小。以 Deepseek 為代表的開源模型使二者達到了相似的水平。

通過引入 RAG 策略,模型的性能顯著提升,縮小了不同模型之間的性能差距。

LLM 的自我評估能力(校準)在不同模型中存在差異,更大的模型通常表現出更好的校準能力。

Reasoning LLM 需警惕 " 思維鏈中的事實性錯誤累積 ",尤其是蒸餾模型。

同時,團隊還在 ChineseEcomQA 上探索了模型校準、RAG、推理模型思維過程等熱門研究課題(具體詳見論文)。

模型往往對回答 " 過于自信 "

一個完美校準的模型應該表現出與其預測準确度一致的置信度。

ChineseEcomQA 團隊通過提示模型在回答問題的同時給出其對回答内容的置信度(範圍 0 到 100),探索模型的事實準确性與置信度之間的關系。

結果顯示,o1-preview 表現出最佳對齊性能,其次是 o1-mini。

然而,大多數模型始終低于完美對齊線,表明模型普遍存在過度自信的趨勢。

這凸顯了改進大型語言模型校準以減輕過度自信產生錯誤響應的巨大空間。

RAG 仍是快速提升模型能力的捷徑

研究過程中,團隊探讨了 RAG 策略在 ChineseEcomQA 數據集上增強 LLM 領網域知識的有效性。

具體來説,研究者在類别概念和品牌概念上的設定重現了一個 RAG 系統。

結果顯示,所有模型都通過 RAG 都得到了顯著提升。研究人員總結出三個詳細的結論。

第一,對于小型 LLM,引入 RAG 信息可以顯著提高評估指标的絕對值。

例如,Qwen2.5-14B 實現了 27.9% 的改進。

第二,對于大型 LLM,RAG 也可以實現顯著的相對改進。

例如,DeepSeek-V3 的平均相對改進達到了 10.44%(準确率從 77.4 提高到 85.5)。

第三,在 RAG 設定下,模型之間的性能仍然遵循縮放規律,但差距迅速縮小。

例如,Deepseek-V3 和 Qwen2.5-72B 之間的準确率差異從 12.1% 縮小到 4%。

總之,RAG 仍是增強 LLM 電子商務知識的有效方法。

警惕 " 思維鏈中的事實性錯誤累積 "

在主要結果中,Deepseek-R1 取得了最佳結果,充分展示了 Reasoning LLM 在開放領網域中的潛力。

然而,在從 Deepseek-R1 蒸餾出的 Qwen 系列模型上,準确率明顯低于預期。

由于開源 Reasoning LLM 揭示了它們的思維過程,研究者進一步調查其錯誤的原因,并将推理模型的思維過程分為以下四種類型:

Type A:Reasoning LLM 通過自我反思反復确認正确答案。

Type B:Reasoning LLM 最初犯了錯誤,但通過自我反思糾正了錯誤。

Type C:Reasoning LLM 通過自我反思引入知識錯誤,導致原本可能正确的答案被修改為不正确的答案。

Type D:Reasoning LLM 反復自我反思。雖然最終得出了答案,但并沒有通過反思獲得高度确定和自信的答案。

總體而言,Type A 和 Type B 是通過擴大 test-time 計算量獲得的推理能力;Type C 和 Type D 是膚淺的自我反思,導致最終答案不正确。

由于 Deepseek-R1 強大的 buase 模型能力表現出更好的泛化能力。

相比之下,在某些特定領網域蒸餾的 DeepSeek-R1-Distill-Qwen 系列似乎在膚淺的自我反思方面遇到了困難。中間推理步驟中事實錯誤的積累增加了整體錯誤率。

對于較小的推理 LLM,開放領網域的推理能力不能直接通過數理邏輯能力來泛化,需要找到更好的方法來提高它們的性能。

One More Thing

該論文核心作者包括陳海斌,呂康滔,袁愈錦,蘇文博,研究團隊來自淘天集團算法技術 - 未來生活實驗室。

該實驗室聚焦大模型、多模态等 AI 技術方向,致力于打造大模型相關基礎算法、模型能力和各類 AI Native 應用,引領 AI 在生活消費領網域的技術創新。

淘天集團算法技術 - 未來生活實驗室團隊将持續更新和維護數據集及評測榜單,歡迎廣大研究者使用我們的評測集進行實驗和研究~

—    —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

關于27個大模型混戰電商領網域,DeepSeek-R1&V3仍是最強就分享完了,您有什麼想法可以聯系小編(佼昌翰)。