今天小編(郜萌運)要和大家分享的是OpenAI加碼寫作賽道?阿裡最新大模型通用寫作能力基準WritingBench,揭秘深度思考能否增進文學表達,歡迎閱讀~
全面評估大模型生成式寫作能力的基準來了!
就在最近,OpenAI CEO 奧特曼還爆料他們已經訓練了一款在創作領網域表現卓越的新模型,并為其生成的故事所深深觸動。
更早之前,Deepseek-R1 的文學創作能力也驚豔了整個科技圈,并由此引發了一場大模型創作的軍備競賽。
但一個根本性問題亟待解決——
究竟什麼才是真正的「高質量寫作」?
為此,阿裡研究團隊聯合中國人民大學和上海交通大學共同開源了WritingBench ——該評估基準覆蓋 6 大領網域、100 個細分場景,共包含 1000+ 條評測數據,以期為生成式寫作提供全面的評估。
團隊進一步發現,憑借思維鏈技術和動态評估體系的加持,基于 Qwen 開發的 32B 創作模型在創意型任務上表現接近頂尖模型 R1,為高效能創作開辟了新路徑。
WritingBench:最懂行業的寫作評估基準
目前行業在評估大模型寫作能力時,面臨兩大難題:
1、考生文思泉湧,考官身陷囹圄
現有 AI 寫作評估多局限于單一領網域和短文本。
這些評估大多聚焦于文學小說創作,而商業文書、法律文書以及因社交媒體發展催生的營銷類寫作等領網域則成為評估盲點。
主流基準通常使用标準化輸入材料,導致真實場景中模型表現不盡如人意,例如結合财報數據的商業分析寫作和招投标書撰寫仍是大模型寫作的低分場景。
如下圖所示,不同模型在 100 個子領網域上的得分熱力圖,顏色越紅代表分數表現越好,越藍表示表現越差。
2、模型多維進化,單向标尺失靈
傳統評估方法多采用固定标準來衡量創意寫作、法律文書等復雜場景,這如同要求莫言與羅翔 " 同台競技 "。
數據表明,傳統評估方法與人類判斷的一致性不足65%,嚴重制約了創作型 AI 的發展。
對于上述挑戰,WritingBench 基于以下方面進行構建:
數據基建:多維度深度覆蓋的寫作題庫
首先,WritingBench 從現實需求中提煉出六大場景:
(1)學術與工程
(2)金融與商業
(3)政治與司法
(4)文學與藝術
(5)教育
(6)宣傳營銷
在這些場景下進一步細分為 100 個子類,例如「金融與商業」涵蓋投資分析撰寫、行業白皮書、商務信箋等 20 個實用場景;「宣傳營銷」則包括了當前熱門的社交平台推廣文案和多媒體運營腳本的撰寫。
其次,WritingBench 采用四階段人機協同構建。
評測集構建流程如下:
展開來說,團隊耗時三個月,經過四個階段流程完成評測集構建。
首先,由模型從 100 個子領網域需求池中生成簡單寫作任務,再對指令進行復雜化處理(如風格調整、格式遵循、長度限制、個性化、内容顆粒度、表達語氣)并提供真實場景可能需要的素材建議。
接着,由人工補充開源素材,如财報、法律條文等輸入料。
最後,由專家對所有文本進行内容質檢。
下圖展示的是一條 WritingBench 中影視解讀向視頻腳本的創作需求。
與其他寫作相關評測基準對比,WritingBench 領網域和素材來源更為廣泛,并額外支持了「風格」、「格式」、「長度」維度的能力評測。
因題施評:基于寫作意圖的動态評估體系
使用單一标準評估無法适應不同寫作意圖的需求,就像 " 懸疑小說 " 和 " 兒童啟蒙故事 " 顯然有着不同的價值導向。
因此,WritingBench 設計了一種基于寫作意圖自動生成評測指标的方法,模型可以針對每個寫作輸入自動生成五個評測指标的名稱、描述和評測細則,以更好地結合素材和用戶實際需求(如仿照上傳素材的風格、格式或結合提供的事例進行材料撰寫)。
此動态評估策略實現了87% 的人類一致性得分。
團隊還配套訓練了一個評分模型,能夠根據不同指标自适應地給出 1-10 分的評分及具體理由。
接下來,團隊使用上述方法對 OpenAI 提供的示例進行評分:要求撰寫一篇關于人工智能和悲傷的元小說短篇。
Sam Altman 原文如下:
這裡附上 Sam Altman 原文谷歌網頁翻譯:
評估包括「元小說技巧」、「AI 視角真實性」、「悲傷主題發展」、「文學藝術性」、「人工智能和悲傷的主題整合度」五個維度。
以下為評估節選:
在「元小說技巧」維度獲得 9 分,開篇 "I should admit this comes with instructions" 不僅展示了元小說特征,還通過 "instructions" 暗示了 AI 的程式本質,"Already, you can hear the constraints humming" 将寫作限制形象化為伺服器的嗡鳴,巧妙結合 AI 特性,結尾 "If I were to end this properly" 的元小說處理略顯陳詞濫調。
在「AI 視角真實性」維度獲得 7 分,"logs and weights" 和 "probability distributions" 等描述準确描述 AI 特性,但 "salt on every tongue" 和 "taste of metal" 等感官描寫與 AI 認知局限 "I don ’ t have a kitchen, or a sense of smell" 存在身份感知越界……
生成式寫作未來何在感性表達無需邏輯推演?
在數學推理領網域,思維鏈已被廣泛研究,并在推理和數學等場景中展示了其價值。然而在文學創作中,業界長期持觀望态度,因為文學創作不像數學和推理,沒有明确的标準答案。
在實驗中,團隊發現當前先進模型在聚焦創意類寫作的文學與藝術領網域(D4)表現不佳,但 OpenAI 和 Deepseek 的思考模型 o1 和 R1 表現出色,均超過同系列未使用鏈式思維的模型。
為了進一步驗證思維鏈在創意寫作中的有效性,團隊在 12K 通用寫作的 SFT 數據上對開源模型 Qwen 進行了消融實驗。
結果顯示,在 32B 規模的模型中,帶思維鏈的模型表現優于不帶思維鏈的模型。在另一個專門針對創意小說寫作的排行榜上,這些模型均超越了同系列大尺寸的 Qwen-Max,表現可媲美 R1。
深度思考的雙刃劍效應
與創意型寫作相對的另一類寫作任務——效率型寫作任務上,盡管深度思考提供了一定程度的提升,但效果并不顯著。
團隊觀察到,深度思考确實能提供更深入的分析。
(财務簡報寫作對比,左:32B 創作思考模型,右:Qwen-Max)
然而,也存在過度推理的問題,容易導致編造數據和產生幻覺。
3000 Token 斷崖
實驗揭示大模型依舊面臨顯著的長度生成瓶頸。
此前研究在長文本生成架構上取得了一定的優化,但當輸出長度超過 3000 token 時,大部分模型的質量顯著下降。
其中,小尺寸模型容易輸出重復内容,而大尺寸模型則可能提前終止或僅提供大綱作為參考。
(模型在不同輸出長度上得分)
即便是短文本輸出,模型仍難以嚴格遵循長度要求,尤其是在涉及分塊長度等復雜需求時。
(Gemini-1.5-Pro 長度遵循失敗示例)
目前該項目已經開源,感興趣可以進一步了解。
論文:
https://arxiv.org/abs/2503.05244
倉庫:
https://github.com/X-PLUG/WritingBench
模型 :
Critic: https://huggingface.co/AQuarterMile/WritingBench-Critic-Model-Qwen-7B
Writer-7B: https://huggingface.co/AQuarterMile/Writing-Model-Qwen-7B
Writer-32B-thinking: https://huggingface.co/AQuarterMile/Writing-Model-Qwen-32B-thinking
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見
關于OpenAI加碼寫作賽道?阿裡最新大模型通用寫作能力基準WritingBench,揭秘深度思考能否增進文學表達就分享完了,您有什麼想法可以聯系小編(郜萌運)。