高馬爾
一個信息發佈的網站

新版DeepSeek-V3官方報告出爐:超越GPT-4.5,僅靠改進後訓練

今天小編(袁曼雁)要和大家分享的是新版DeepSeek-V3官方報告出爐:超越GPT-4.5,僅靠改進後訓練,歡迎閲讀~

剛剛,DeepSeek 官方發布 DeepSeek-V3 模型更新技術報告。

V3 新版本在數學、代碼類相關評測集成績超過 GPT-4.5

而且這只是通過改進後訓練方法實現

DeepSeek-V3-0324 和之前的 DeepSeek-V3使用同樣的 base 模型

打破了之前傳言該版本 base 模型是 R2 的傳言。

新版本參數量約為 660B,與此前網傳的 685B 有所出入。

開源版本上下文長度為 128K(網頁端、App 和 API 提供 64K 上下文)。

私有化部署時只需要更新 checkpoint 和 tokenizer_config.json(tool calls 相關變動)。

目前,想要體驗這一版本模型,只需用户登錄官方網頁、APP、小程式進入對話界面後,關閉深度思考即可體驗。API 接口和使用方式保持不變。

官方建議,此後非復雜推理任務使用 V3 新版本更好。

此外,官方還進一步展示了新版本在各個維度的能力。

前端開發

生成代碼可用性更高,視覺效果也更好。

中文寫作

相較于 R1 版有進一步優化,特别提升了中長篇的内容質量。

比如寫一篇關于蘇轼生平的散文:

中文搜索

聯網情況下,V3 新版本的搜索輸出内容也更詳實準确、排版更清晰美觀。

現在寫一份 3000 字的市場報告也是 so easy(上下滑動查看完整内容):

此外,V3 新版本在工具調用、角色扮演、問答閒聊等方面也進一步提升。

今天白天不少網友也上手實測了諸多能力,比如做個小遊戲:

該版本模型采用寬松的 MIT 開源協定。

且可直接部署在 M3 Ultra 的 Mac Studio 上。

這意味着大模型開發應用的門檻更進一步降低。

話不多説,趁着深夜,還沒睡的趕緊去體驗最新版吧 ~

參考鏈接: https://mp.weixin.qq.com/s/XK6ymJL7y0vo_GQXxmpuBA

關于新版DeepSeek-V3官方報告出爐:超越GPT-4.5,僅靠改進後訓練就分享完了,您有什麼想法可以聯系小編(袁曼雁)。