今天小编(佼昌翰)要和大家分享的是27个大模型混战电商领網域,DeepSeek-R1&V3仍是最强,欢迎阅读~
全面评估大模型电商领網域能力,首个聚焦电商基础概念的可扩展问答基准来了!
ChineseEcomQA,来自淘天集团。
此前,大模型常因生成事实性错误信息而受限,而传统基准又难以兼顾电商任务的多样性与领網域特殊性。
但随着大模型在电商领網域的广泛应用,如何精准评估其对专业领網域知识的掌握成为关键挑战。
为此,ChineseEcomQA 针对性进行了 3 大核心设计:
基础概念覆盖:覆盖 20 大行业,聚焦 10 类核心电商概念(如行业分类、品牌属性、用户意图等),包含 1800 组高质量问答,适配多样电商任务;
混合数据构建:融合 LLM 生成、检索增强(RAG)与人工标注,确保数据质量与领網域专业性;
平衡评估维度:兼顾行业通用性与专业性,支持精准领網域能力验证。
ChineseEcomQA 构建流程
从电子商务基本元素(用户行为、商品信息等)出发,团队总结出电子商务概念的主要类型。
最终定义了从基础概念到高级概念的 10 个子概念(具体详见论文):
行业分类、行业概念、类别概念、品牌概念、属性概念、口语概念、意图概念、评论概念、相关性概念、个性化概念。
然后,研究人员采用混合的数据集构建过程,结合 LLM 验证、RAG 验证和严格的人工标注,确保基准符合三个核心特性:
专注基础概念
电商知识通用性
电商知识专业性
具体来说,构建 ChineseEcomQA 主要分为自动化问答对生成和质量验证两个阶段。
第一阶段,问答对生成。
研究者收集了大量知识丰富且涵盖各种相关概念的电子商务语料库。
然后,提示大模型(GPT-4o)根据给定的内容忠实地生成问答对;对于比较开放的问题,要求大模型同时提供非常混乱和困难的候选答案。
从而自动化地构建出大量问答对作为初始评测集。
第二阶段,质量验证。
我们开发了一个多轮自动化流程对生成的问答对进行验证,重新生成或过滤不符合标准的问题。
具体包括大模型验证、电子商务通用知识验证、电子商务专业知识验证、电子商务事实性验证、难度筛选、人工验证。
经过多重严格筛选,最终得到均匀覆盖 10 大类电商子概念的 1800 条高质量问答对作为终版数据集。
DeepSeek-R1 和 V3 表现最佳
评估了 11 个闭源模型和 16 个开源模型,得出如下排名榜:
(注:对于子概念,IC、IDC、CC、BC、AC、SC、ITC、RVC、RLC 和 PC 分别代表 " 行业分类 "" 行业概念 "" 类别概念 "" 品牌概念 "" 属性概念 "" 口语概念 "" 意图概念 "" 评论概念 "" 相关性概念 " 和 " 个性化概念 ")
总的来看,DeepSeek-R1 和 DeepSeek-V3 是表现最好的模型,展示了强大的基础模型(推理模型)在电子商务领網域的巨大潜力。
此外,研究团队对主流模型表现分析并得出了以下发现:
更大的模型在高级电商概念上表现更好,遵循 Scaling Law,但小模型在特定电商任务上仍面临显著挑战。
中文社区模型(如 Qwen 系列、GLM-4)在电商场景适应性上表现突出,尤其是在高级电子商务概念上。虽然 O1-preview 在基本概念上表现更好,但在更高级的概念上面临困难。
某些类型的电子商务概念(如相关性概念)仍然对 LLM 构成重大挑战。大参数量模型由于其强大的通用能力,可以泛化到电商任务上,而小参数量模型则更有困难。这些特点体现了专门开发电商领網域模型的必要性。
Deepseek-R1-Distill-Qwen 系列的表现不如原始的 Qwen 系列,主要原因是在推理过程中引入知识点错误,进而导致最终结论出错。
开源模型和闭源模型之间的性能差距很小。以 Deepseek 为代表的开源模型使二者达到了相似的水平。
通过引入 RAG 策略,模型的性能显著提升,缩小了不同模型之间的性能差距。
LLM 的自我评估能力(校准)在不同模型中存在差异,更大的模型通常表现出更好的校准能力。
Reasoning LLM 需警惕 " 思维链中的事实性错误累积 ",尤其是蒸馏模型。
同时,团队还在 ChineseEcomQA 上探索了模型校准、RAG、推理模型思维过程等热门研究课题(具体详见论文)。
模型往往对回答 " 过于自信 "
一个完美校准的模型应该表现出与其预测准确度一致的置信度。
ChineseEcomQA 团队通过提示模型在回答问题的同时给出其对回答内容的置信度(范围 0 到 100),探索模型的事实准确性与置信度之间的关系。
结果显示,o1-preview 表现出最佳对齐性能,其次是 o1-mini。
然而,大多数模型始终低于完美对齐线,表明模型普遍存在过度自信的趋势。
这凸显了改进大型语言模型校准以减轻过度自信产生错误响应的巨大空间。
RAG 仍是快速提升模型能力的捷径
研究过程中,团队探讨了 RAG 策略在 ChineseEcomQA 数据集上增强 LLM 领網域知识的有效性。
具体来说,研究者在类别概念和品牌概念上的設定重现了一个 RAG 系统。
结果显示,所有模型都通过 RAG 都得到了显著提升。研究人员总结出三个详细的结论。
第一,对于小型 LLM,引入 RAG 信息可以显著提高评估指标的绝对值。
例如,Qwen2.5-14B 实现了 27.9% 的改进。
第二,对于大型 LLM,RAG 也可以实现显著的相对改进。
例如,DeepSeek-V3 的平均相对改进达到了 10.44%(准确率从 77.4 提高到 85.5)。
第三,在 RAG 設定下,模型之间的性能仍然遵循缩放规律,但差距迅速缩小。
例如,Deepseek-V3 和 Qwen2.5-72B 之间的准确率差异从 12.1% 缩小到 4%。
总之,RAG 仍是增强 LLM 电子商务知识的有效方法。
警惕 " 思维链中的事实性错误累积 "
在主要结果中,Deepseek-R1 取得了最佳结果,充分展示了 Reasoning LLM 在开放领網域中的潜力。
然而,在从 Deepseek-R1 蒸馏出的 Qwen 系列模型上,准确率明显低于预期。
由于开源 Reasoning LLM 揭示了它们的思维过程,研究者进一步调查其错误的原因,并将推理模型的思维过程分为以下四种类型:
Type A:Reasoning LLM 通过自我反思反复确认正确答案。
Type B:Reasoning LLM 最初犯了错误,但通过自我反思纠正了错误。
Type C:Reasoning LLM 通过自我反思引入知识错误,导致原本可能正确的答案被修改为不正确的答案。
Type D:Reasoning LLM 反复自我反思。虽然最终得出了答案,但并没有通过反思获得高度确定和自信的答案。
总体而言,Type A 和 Type B 是通过扩大 test-time 计算量获得的推理能力;Type C 和 Type D 是肤浅的自我反思,导致最终答案不正确。
由于 Deepseek-R1 强大的 buase 模型能力表现出更好的泛化能力。
相比之下,在某些特定领網域蒸馏的 DeepSeek-R1-Distill-Qwen 系列似乎在肤浅的自我反思方面遇到了困难。中间推理步骤中事实错误的积累增加了整体错误率。
对于较小的推理 LLM,开放领網域的推理能力不能直接通过数理逻辑能力来泛化,需要找到更好的方法来提高它们的性能。
One More Thing
该论文核心作者包括陈海斌,吕康滔,袁愈锦,苏文博,研究团队来自淘天集团算法技术 - 未来生活实验室。
该实验室聚焦大模型、多模态等 AI 技术方向,致力于打造大模型相关基础算法、模型能力和各类 AI Native 应用,引领 AI 在生活消费领網域的技术创新。
淘天集团算法技术 - 未来生活实验室团队将持续更新和维护数据集及评测榜单,欢迎广大研究者使用我们的评测集进行实验和研究~
— 完 —
学术投稿请于工作日发邮件到:
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
一键关注 点亮星标
科技前沿进展每日见
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
关于27个大模型混战电商领網域,DeepSeek-R1&V3仍是最强就分享完了,您有什么想法可以联系小编(佼昌翰)。