高馬爾
一個信息發佈的網站

DeepSeek衝擊之下,大模型六小強如何「回應」?

今天小編(袁曼雁)要和大家分享的是DeepSeek衝擊之下,大模型六小強如何「回應」?,歡迎閱讀~

馬上整整 1 個月了!

這一個月以來,全球大模型市場受 DeepSeek 攪動,無不方寸大亂

中外大廠、初創公司都頭好秃,全被追着問:你們對 DeepSeek 怎麼看?DeepSeek 出來你們怎麼辦?

有避而不談的,也有主動回應的。

國内,比如騰訊,昨天剛剛在微信開啟灰度測試 "AI 搜索 " 功能,接入的就是 DeepSeek-R1;比如百度,當即宣布 4 月起文心一言免費用,下一代文心模型決定開源……

國外,比如 OpenAI,緊急發布 o3-mini、上新深度搜索、公開 o3 思維鏈條;比如谷歌 DeepMind,新發布的 Gemini 2.0 系列,新增模型型号 Gemini 2.0 Flash-Lite,其 API 砍價能力比 DeepSeek 還狠;

然而正當全球 AI 大模型格局重塑之際,放眼國内,不少人還很關心一件事:

六家已成為獨角獸的大模型創業公司,零一萬物、百川智能、階躍星辰、智譜華章、月之暗面、MiniMax 江湖人稱大模型六小強。

在 DeepSeek 猛烈的衝擊波下,他們正在如何應對?

衝擊之下,六小強都有啥 " 回應 "

六小強中,沒有任何一家站出來,正面表達對 DeepSeek 的看法。

但這不代表它們沒有行動——畢竟比起高談闊論,落地的實際行動更值得用來證明。

注:以下均為六小強 1 月 20 日(含)後的動态

零一萬物

DeepSeek-R1 問世之前,創始人李開復博士已公開表示,零一萬物将不再追求訓練超級大模型。

經過為期半年多的探索驗證,他們明确表示,參數适中同時性能優異、推理速度更快、推理成本更低的輕量化模型更适合商用場景," 會成為 AI-First 應用爆發的催化劑 "。

而 DeepSeek 問世之後,零一萬物對外曝光的首個動作,選擇了攜手蘇州——

2 月 14 日,零一萬物與蘇州高新區聯合成立的產業大模型基地正式授牌。

該大模型基地聚焦垂直產業,重點打造制造、金融、醫療、政務、生物、具身等多個領網域的行業大模型解決方案,聯合產業鏈上下 7 家企業," 探索大模型技術從實驗室走向生產線的產業化路徑 "。

在現場,李開復談道,在人工智能技術重構產業的關鍵節點,大模型絕非 " 空中樓閣 ",而是驅動實體經濟的核心引擎。

而零一萬物官方表示:

繼 1 月 2 日與阿裡雲聯合成立 " 產業大模型聯合實驗室 " 之後,零一萬物再度于產業大模型方向落子。

此次于蘇州高新區落地的 " 產業大模型基地 " 進一步加速了零一萬物模型能力商業落地的進程。

百川智能

DeepSeek-R1 發布 5 天後,1 月 25 日,百川智能發布新模型 Baichuan-M1-preview。

這是百川第一個全場景推理大模型。所謂全場景,指的是該模型同時具備語言、視覺和搜索三個領網域的推理能力。

與此同時,百川依然奔赴轉向醫療的道路上:

Baichuan-M1-preview 解鎖了醫療循證模式,官方解釋它 " 實現了從醫療證據檢索到深度推理的完整端到端服務,能夠快速、精準地回答醫療臨床、科研問題 "。

2 月 13 日,以 Baichuan-M1 為底座打造的「AI 兒科醫生」經過近一個月的内測後,在京 " 上崗 "。

針對臨床推理,它首先會基于一訴五史生成診療假設,繼而通過檢驗檢查數據進行假設證偽與排除,最終經由自反思機制對剩餘假設進行概率排序,輸出符合臨床思維路徑的診療建議。

官方消息顯示,當天,北京兒童醫院開展了國内首次 "AI 兒科醫生 + 多學科專家 " 的雙醫并行多學科會診。與會人員除了多科室 13 位專家,還有該醫院與百川智能、小兒方健康科技(這家是百川投資的醫療數據公司)聯合研發的「AI 兒科醫生」。

與會者對一位顱底腫物伴随抽動症狀的患兒進行了多學科會診,另一邊,工程師将患者的主訴和病歷資料輸入模型。

AI 兒科醫生也給出了與專家組會診結果高度吻合的建議。

階躍星辰

DeepSeek-R1 發布當天,階躍星辰正處于模型上新進程中。

1 月 20 日當天發布的兩款模型均為語言模型,一款是輕量級、響應快、性價比高的 Step-2-mini,與自家模型玩意參數的 Step-2 相比,Step-2-mini 以 3% 左右的參數量保有 80% 以上的性能。

另一款是主打文學創作的 Step-2 文學大師版," 專為創作而生 "。

而後兩天内,階躍繼續保持節奏對外發布。

21 日,更新語音模型 Step-1o Audio,又上新多模态理解大模型 Step-1o Vision。後者發布首測就衝上來了大模型競技場前 10,位列視覺領網域國產第 1。

22 日,發布視頻生成模型 Step-Video V2 版本,該版本在前代 V1 基礎上,從 VAE 模型、DiT 架構與 RL 融合、多模态大模型應用三方面基礎上更新而來。

模型側更新外,階躍星辰旗下應用「躍問」也在 1 月 24 日推出了全新功能,躍問 AI 創意板。

它的功能是 " 不用代碼就能在 3 步内實現想法,開發應用 ",并且将成果全平台分享。

BTW,量子位發現,躍問不知何時已經偷偷接入了 DeepSeek-R1 ……

以及農歷新年前頻繁動作之時,階躍星辰系統負責人朱亦博就在朋友圈小小劇透,年後階躍有大動作。

而 " 大動作 " 本身,或許會在2 月 21 日階躍星辰舉辦的首屆 "Step Up 生态開放日 "上揭曉。至于有無針對 DeepSeek-R1 的回應性動作或戰略,也要等到下周會上才見分曉了。

智譜華章

2 月 11 日,清華大學計算機系教授、智譜創立發起人唐傑在巴黎大王宮舉行的第三屆人工智能行動峰會邊會 " 人工智能技術進步與應用 " 上發言。

也是唯一參加該峰會的大模型代表。

在闡述對 AGI 的 5 個階段劃分後,唐傑表示現在正處于 L2 和 L3 交匯處,即 " 對齊機器與人類的意圖 " 和 " 機器自我學習 " 的交匯處。

而 2025 年的關鍵詞,部分摘錄如下:

自主的、具有 Agent 能力的大型語言模型(Agentic LLMs)将成為日常生活和工作的核心。

通過給定高層次目标,自主的 LLMs 将制定計劃、利用數字設備并執行復雜項目,而所需的人類幹預極少。

這些自主系統将不再僅僅是孤立的實體,而是将協同工作,互補優勢,以更高效地完成任務。

此外,面對 DeepSeek 攪動風雲,智譜的 " 回應 " 更多落實在開年頻頻落地上。

首先是2 月 11 日,繼續開展和三星的合作。

具體表現為讓 Agentic GLM(智譜專為手機研發的系統級大模型)登陸三星最新款 Galaxy S25 系列手機,提供基于 AI 的實時語音和視頻通話,以及實現視覺理解和系統功能調用、AI 搜索、文案寫作等功能。

(此處确與同日唐傑發言部分内容相呼應)

其次是量子位注意到,雖未對外官宣,但智譜近日悄悄開始和二次元很火熱的 AI 畫圖捏角色的應用軟體「捏 ta」展開合作。

一方面,智譜在自家視頻模型上線了捏 ta;另一方面,二家基于智譜的 CogVideoX-2 模型等,在涅 ta 發起聯名活動。

月之暗面

你說巧不巧?DeepSeek-R1 發布一個半小時後,月之暗面官方公眾号宣布了旗下 Kimi k1.5 多模态思考模型。

相關論文《Kimi k1.5:Scaling Reinforcement Learning With LLMs》中顯示,k1.5 模型設計和訓練有幾個關鍵要素:

長上下文展開

k1.5 團隊将 RL 的上下文視窗擴展到 128k,背後的一個關鍵思想是使用部分展開(partial rollouts)來提高訓練效率。

策略優化改進

k1.5 團隊推導出 long-CoT 的 RL 公式,并采用在線鏡像下降的變體進行穩健的策略優化。

簡潔框架

上述二者的結合為通過 LLMs 學習簡歷了一個簡潔的 RL 框架,最終實現在不依賴蒙特卡洛樹搜索、價值函數和過程獎勵模型等情況下實現更強性能。

多模态能力

即具備聯合推理文本和視覺兩種模态的能力。

2 月 12 日,OpenAI 展示 o3 輕松拿下 IOI 2024 金牌的那篇最新報告論文中,介紹部分就提及了DeepSeek-R1 和 Kimi k1.5 分别通過 CoT 提升大模型在數學和編程上的性能。

MiniMax

現在回頭看 1 月 20 日,真的是神仙打架熱鬧非凡——

當天,MiniMax 也有模型上新。

更新發布 T2A-01 系列語音模型,并上線了海螺語音產品(同樣兼顧模型與產品的推動)。

T2A-01 系列包含 T2A-01-HD、T2A-01-Turbo 兩款模型,API 服務同步上線 MiniMax 開放平台。該系列模型支持 17 種語言及上百種預置音色。

依托該系列模型,在海螺 AI,用戶僅需輸入文字即可生成自然、流暢的超拟人人聲,最長可輸入多達 10000 字元。且可根據需要自由配置輸出語音的情緒、語速、音高,甚至調整音色效果。

這裡特别提及一個 1 月 20 日前發生的事情,那就是 1 月 15 日,MiniMax 創始人兼 CEO 闫俊傑對談《晚點》稿件發出,其中展示和透露出 MiniMax 在當時對 2025 年的調整和計劃。

最重要的一點就是 " 開源 "。

如果重新選,第一天就應該開源。因為開源能加速技術進化。

這一點呼應了當日 MiniMax 官宣 MiniMax-01 系列模型,且發布即開源。

其中,MiniMax-01 首次大規模擴展了新型 Lightning Attention 架構,替代了傳統 Transformer 架構,使模型能夠高效處理 4M token 上下文。

綜上,截至推送,六小強近期動态如下:

被衝擊的不只是六小強

當然了,DeepSeek 這頭深海巨鲸此次扔出 R1,攪動的不僅僅是國内六家大模型獨角獸的圈子。

也就是說,放眼國内,被衝擊的不只是六小強,沒有一家科技巨頭或 AI 大模型公司置身事外。

衝擊之下有新的視角,新的轉變。

譬如 DeepSeek「大膽啟用業界經驗不夠豐富的年輕技術人才,以此作為追求突破性技術創新一環」的故事,就在街頭巷尾廣為流傳,重新叩問了每一個企業對用人标準的定義。

譬如百度,在放出宣布文心一言即将免費的消息後,緊跟着宣布了決定背叛閉源大模型的決定——将在未來幾個月中陸續推出文心大模型 4.5 系列,并于 6 月 30 日起正式開源。

在被問到 DeepSeek 是否是意料之中時,李彥宏也在日前的迪拜 AI 峰會上坦言:

我認為,創新是不能被計劃的。

你不知道創新何時何地到來,你所能做的是,營造一個有利于創新的環境。

衝擊之下有新的發展,新的機遇。

雲計算廠商和 AI Infra 平台 / 公司,第一時間上線 DeepSeek API,不僅陸續搭載上 671B 滿血版,還争相優化截斷率、回復速度、準确率等等,有的還推出利好本地部署的框架,再破大模型推理門檻。

為湧入巨量用戶的 DeepSeek 分流,讓更多用戶從不同渠道把 AI 用起來。

另一邊,以騰訊為例,從雲平台騰訊雲、騰訊雲旗下大模型知識應用開發平台知識引擎、國民應用微信、AI 智能工作台 ima、主力 AI 應用元寶全方位擁抱 DeepSeek,紛紛宣布接入 R1 模型,還用自身能力為其使用體驗添磚加瓦。

而華為、阿裡、字節等大廠們及旗下應用、團隊們,也都在這樣做。

它們開放兼容,擁抱的不光是 DeepSeek,更是用戶體驗最佳的模型——不管是否是 " 純自研 "。

還是那句話,神仙競技,凡人撿漏,AI 普惠,多多益善。

當然,被攪動的池水裡,不止航行着國内的船只。

放眼國際,DeepSeek 的名字已經成為華爾街分析師會議上最高頻提到的 AI 公司。

随着 Alphabet(谷歌母公司)、AMD、Palantir 和亞馬遜等科技巨頭公布收益,DeepSeek 被提及的次數還在增長。

外媒用很簡短的一句話形容這一 " 盛況 ":

"DeepSeek, DeepSeek, DeepSeek。"

具體到國外大模型玩家身上,面對 "DeepSeek 衝擊波 ",有急得跳腳的,也有反思與撷取精粹的。

單舉一個例子,就能看到頂尖巨頭對此作出 " 回應 " 的态度之綜合:

OpenAI,緊急地首次向用戶免費推出推理模型 o3-mini,CEO 奧特曼還在 Reddit" 有問必答 " 活動中罕見公開反思:

在開源權重 AI 模型這個問題上, ( 個人認為)我們站在了歷史錯誤的一邊。

去年 12 月底穩坐高台,拉長戰線連續直播 12 天的擠牙膏式打法不見了。

OpenAI 現在已經能在一日之内連續官宣 GPT-4.5 幾周内上線,GPT-5 幾月内面世,以及關于模型路線規劃調整、既有模型迭代更新的多個新消息。

而在大模型賽道之外,DeepSeek 衝擊帶來的影響力如何,大家肉眼可見——

DeepSeek 逢山開路,無數第三方争先恐後接入合作 R1、V3 等模型。

據不完全統計,目前接入 DeepSeek 模型的第三方,包括 infra 平台、手機廠商、Web/App 應用、智駕終端等在内,已超百家。

GitHub 上,V3/R1 不斷攀升的星标數量,代表着更多人可以把 DeepSeek 用起來。

然後生态繁榮,生生不息。

由是深海巨鲸向 AGI 更深處求索,丢下 R1 這枚深水炮彈後,坊間開始流傳一個新梗。

DeepSeek 衝擊帶來的是什麼?

是「一鲸起,萬物生」。

關于DeepSeek衝擊之下,大模型六小強如何「回應」?就分享完了,您有什麼想法可以聯系小編(袁曼雁)。