今天小編(袁曼雁)要和大家分享的是新版DeepSeek-V3官方報告出爐:超越GPT-4.5,僅靠改進後訓練,歡迎閲讀~
剛剛,DeepSeek 官方發布 DeepSeek-V3 模型更新技術報告。
V3 新版本在數學、代碼類相關評測集成績超過 GPT-4.5!
而且這只是通過改進後訓練方法實現。
DeepSeek-V3-0324 和之前的 DeepSeek-V3使用同樣的 base 模型。
打破了之前傳言該版本 base 模型是 R2 的傳言。
新版本參數量約為 660B,與此前網傳的 685B 有所出入。
開源版本上下文長度為 128K(網頁端、App 和 API 提供 64K 上下文)。
私有化部署時只需要更新 checkpoint 和 tokenizer_config.json(tool calls 相關變動)。
目前,想要體驗這一版本模型,只需用户登錄官方網頁、APP、小程式進入對話界面後,關閉深度思考即可體驗。API 接口和使用方式保持不變。
官方建議,此後非復雜推理任務使用 V3 新版本更好。
此外,官方還進一步展示了新版本在各個維度的能力。
前端開發
生成代碼可用性更高,視覺效果也更好。
中文寫作
相較于 R1 版有進一步優化,特别提升了中長篇的内容質量。
比如寫一篇關于蘇轼生平的散文:
中文搜索
聯網情況下,V3 新版本的搜索輸出内容也更詳實準确、排版更清晰美觀。
現在寫一份 3000 字的市場報告也是 so easy(上下滑動查看完整内容):
此外,V3 新版本在工具調用、角色扮演、問答閒聊等方面也進一步提升。
今天白天不少網友也上手實測了諸多能力,比如做個小遊戲:
該版本模型采用寬松的 MIT 開源協定。
且可直接部署在 M3 Ultra 的 Mac Studio 上。
這意味着大模型開發應用的門檻更進一步降低。
話不多説,趁着深夜,還沒睡的趕緊去體驗最新版吧 ~
參考鏈接: https://mp.weixin.qq.com/s/XK6ymJL7y0vo_GQXxmpuBA
關于新版DeepSeek-V3官方報告出爐:超越GPT-4.5,僅靠改進後訓練就分享完了,您有什麼想法可以聯系小編(袁曼雁)。