高馬爾
一個信息發佈的網站

全球最大開源視頻模型,現在也Created in China了,階躍出品

今天小編(寸飛蘭)要和大家分享的是全球最大開源視頻模型,現在也Created in China了,階躍出品,歡迎閱讀~

剛剛,階躍星辰聯合吉利汽車集團,開源了兩款多模态大模型!

新模型共 2 款:

全球範圍内參數量最大的開源視頻生成模型 Step-Video-T2V

行業内首款產品級開源語音互動大模型 Step-Audio

多模态卷王開始開源多模态模型,其中 Step-Video-T2V 采用的還是最為開放寬松的 MIT 開源協定,可任意編輯和商業應用

(老規矩,GitHub、抱抱臉、魔搭直通車可見文末)

在兩款大模型的研發過程中,雙方在算力算法、場景訓練等領網域優勢互補," 顯著增強了多模态大模型的性能表現 "。

從官方公布的技術報告來看,這次開源的兩款模型在 Benchmark 中表現優秀,性能超過國内外同類開源模型。

抱抱臉官方也轉發了中國區負責人給予的高度評價。

劃重點,"The next DeepSeek"、"HUGE SoTA"。

哦,是嗎?

那量子位可要在本篇文章中掰開技術報告 + 一手實測,看看它們是否名副其實。

量子位求證,目前,本次 2 款新的開源模型都已接入躍問 App,人人可以體驗。

多模态卷王首次開源多模态模型

Step-Video-T2V 和 Step-Audio,是階躍星辰首次開源的多模态模型。

Step-Video-T2V

先來看看視頻生成模型 Step-Video-T2V。

它的參數量達到 30B,是目前已知全球範圍内參數量最大的開源視頻生成大模型,原生支持中英雙語輸入。

官方介紹,Step-Video-T2V 共有 4 大技術特點:

第一,可直接生成最長 204 幀、540P 分辨率的視頻,确保生成的視頻内容具有極高的一致性和信息密度。

第二,針對視頻生成任務設計并訓練了高壓縮比的 Video-VAE,在保證視頻重構質量的前提下,能夠将視頻在空間維度壓縮 16 × 16 倍,時間維度壓縮 8 倍。

當下市面上多數 VAE 模型壓縮比為 8x8x4,在相同視頻幀數下,Video-VAE 能額外壓縮 8 倍,故而訓練和生成效率都提升 64 倍。

第三,針對 DiT 模型的超參設定、模型結構和訓練效率,Step-Video-T2V 了進行深入的系統優化,确保訓練過程的高效性和穩定性。

第四,詳細介紹了預訓練和後訓練在内的完整訓練策略,包括各階段的訓練任務、學習目标以及數據構建和篩選方式。

此外,Step-Video-T2V 在訓練最後階段引入 Video-DPO(視頻偏好優化)——這是一種針對視頻生成的 RL 優化算法,能進一步提升視頻生成質量,強化生成視頻的合理性和穩定性。

最終效果,是讓所生成視頻中的運動更流暢、細節更豐富、指令對齊更準确。

為了全面評測開源視頻生成模型的性能,階躍此次一并發布了針對文生視頻質量評測的新基準數據集Step-Video-T2V-Eval

該數據集也一并開源了~

它包含 128 條源于真實用戶的中文評測問題,旨在評估生成視頻在 11 個内容類别上的質量,包括運動、風景、動物、組合概念、超現實等等。

Step-Video-T2V-Eval 在其上的評測結果,見下圖:

可以看到,Step-Video-T2V 在指令遵循、運動平滑性、物理合理性、美感度等方面,表現均超越此前最佳的開源視頻模型。

這意味着,整個視頻生成領網域,都可以基于這個新的最強基礎模型來進行研究與創新。

而實際效果方面,階躍官方介紹:

生成效果,Step-Video-T2V 在復雜運動、美感人物、視覺想象力、基礎文字生成、原生中英雙語輸入和鏡頭語言等方面具備強大的生成能力,且語義理解和指令遵循能力突出,能夠高效助力視頻創作者實現精準創意呈現。

還等什麼?實測走起——

按照官方介紹的順序,第一關,測試 Step-Video-T2V 能否 hold 住復雜運動。

之前的視頻生成模型,在生成芭蕾 / 國标 / 中國舞、藝術體操、空手道、國術等各類復雜性運動片段中,總會出現奇奇怪怪的畫面。

比如突然冒出來的第三條腿,交叉融合的雙臂等等,怪吓人的。

針對這類情況,我們進行定向測試,丢給 Step-Video-T2V 一段 prompt:

室内羽毛球場,平視視角,固定鏡頭記錄了一段男子打羽毛球的場景。一名身穿紅色短袖、黑色短褲的男子,手持羽毛球拍,站在綠色的羽毛球場地中央。球網橫跨場地,将場地分為兩部分。男子揮拍擊球,将羽毛球擊向對面。光線明亮均勻,畫面清晰。

然後得到:

場景、人物、鏡頭、光線、動作,統統吻合。

生成畫面中含「美感人物」,則是量子位對 Step-Video-T2V 發起的第二關挑戰。

講道理,現在文生圖模型生成真人圖片的 level,在靜态、局部細節上,絕對是可以以假亂真的。

但視頻生成時,人物一旦動起來,仍存在可辨識的物理或邏輯瑕疵。

而 Step-Video-T2V 的表現嘛——

Prompt:一位男性,身穿黑色西裝,搭配深色領帶和白色襯衫,臉部帶有傷痕,表情凝重。特寫鏡頭。

" 沒什麼 AI 感。"

這是量子位編輯部同學們傳閱一遍過後,對視頻中小帥的一致評價。

既是五官端正,皮膚紋理真實,臉上傷痕清晰可見的那種 " 沒什麼 AI 感 "。

也是逼真但主角并沒出現眼神空洞、表情僵硬的那種 " 沒什麼 AI 感 "。

上面兩關,都讓 Step-Video-T2V 保持在固定鏡頭機位。

那麼,推拉搖移,表現如何?

第三關,考驗 Step-Video-T2V 對運鏡的掌握,比如推拉搖移,旋轉、跟随。

要它旋轉,它就旋轉:

要它移動與跟随,它就給你移動與跟随:

還挺不賴!可以肩扛斯坦尼康,去片場當運鏡大師了(不是)。

一番測試下來,生成效果給出答案:

Step-Video-T2V 确如評測集結果那樣,在語義理解和指令遵循能力突出。

甚至基礎文字生成也輕松拿捏

Step-Audio

同時開源的另一款模型 Step-Audio,是行業内首個產品級的開源語音互動模型。

在階躍自建并開源的多維度評估體系 StepEval-Audio-360 基準測試上,Step-Audio 在邏輯推理、創作能力、指令控制、語言能力、角色扮演、文字遊戲、情感價值等維度,均取得最佳成績。

在 LlaMA Question、Web Questions 等 5 大主流公開測試集中,Step-Audio 性能均超過了行業内同類型開源模型,位列第一。

可以看到,它在 HSK-6(漢語水平考試六級)評測中的表現尤為突出。

實測如下:

階躍團隊介紹,Step-Audio 能夠根據不同的場景需求生成情緒、方言、語種、歌聲和個性化風格的表達,能和用戶自然地高質量對話。

同時,由其生成的語音不僅具有逼真自然、高情商等特征,還能實現高質量的音色復刻并進行角色扮演。

總之,影視娛樂、社交、遊戲等行業場景下應用需求,Step-Audio 包讓你一整個大滿足的。

階躍開源生态,正在滾雪球

怎麼說呢,就一個字:卷。

階躍是真卷啊,尤其是在自家拿手好戲多模态模型方面——

旗下 Step 系列中的多模态模型,自打出生以來,就是國内外各大權威評測集、競技場等的第一名常客。

只看最近 3 個月,都已經數次勇奪榜首。

去年 11 月 22 日,大模型競技場最新榜單,多模态理解大模型 Step-1V 上榜,總分與 Gemini-1.5-Flash-8B-Exp-0827 持平,位列視覺領網域中國大模型第一。

今年 1 月,國内大模型評估平台 " 司南 "(OpenCompass)多模态模型評測實時榜單,剛出爐的 Step-1o 系列模型拿下第一。

同日,大模型競技場最新榜單,多模态模型 Step-1o-vision 拿下國内視覺領網域大模型第一。

其次,階躍的多模态模型不僅性能好、質量佳,研發迭代頻率也很高——

截至目前,階躍星辰已經先後發布了 11 款多模态大模型。

上個月,6 天連發 6 模型,覆蓋語言、語音、視覺、推理全賽道,進一步做實多模态卷王稱号。

這個月又開源 2 款多模态模型。

只要穩定住這個節奏,就能繼續且持續地證明自己「全家桶級多模态玩家」的地位。

憑借強大的多模态實力,2024 年開始,市場和開發者們就已經認可并廣泛接入階躍 API,形成了龐大的用戶基礎。

大眾消費品,如茶百道,就讓全國數千家門店接入多模态理解大模型 Step-1V,探索大模型技術在茶飲行業的應用,進行智能巡檢、AIGC 營銷。

公開數據顯示,平均每天上百萬杯茶百道茶飲在大模型智能巡檢的守護下送到消費者手中。

而 Step-1V 平均每天能夠為茶百道督導員節約 75% 的自檢核驗時間,為茶飲消費者提供了更加安心和優質的服務。

獨立開發者,如網紅 AI 應用 " 胃之書 "、AI 心理療愈應用 " 林間聊愈室 " 在對國内大部分模型做過 AB 測試後,最終都選擇了階躍多模态模型 API。

(小聲:因為用它,付費率最高)

具體數據顯示,2024 年下半年,階躍多模态大模型 API 的調用量增長超 45 倍。

再說到,此次開源,開源的就是階躍自家最擅長的多模态模型。

我們注意到,已經積累市場和開發者口碑及數量的階躍,此次開源,從模型側就在為後續深入接入做考慮。

一方面,Step-Video-T2V 采用了是最為開放寬松的 MIT 開源協定,可任意編輯和商業應用。

可以說,「毫不隐藏」。

另一方面,階躍表示 " 全力降低產業接入門檻 "。

就拿 Step-Audio 來說吧,不同于市面上的開源方案需要經過再部署和再開發等工作量,Step-Audio 是一整套實時對話方案,只要簡單部署上就能直接實時對話。

零幀起手就能享受端到端體驗。

一整套動作下來,圍繞階躍星辰和它手中的多模态模型王牌,已經初步形成了獨屬于階躍的開源技術生态。

在這個生态中,技術、創意和商業價值相互交織,共同推動着多模态技術的發展。

而且随着階躍模型的繼續研發、迭代,開發者的迅速、持續接入,生态夥伴的助力、合力,階躍生态的 " 滾雪球效應 ",已經發生,并正在壯大。

中國開源力量正在并肩用實力說話

曾幾何時,提起大模型開源領網域的佼佼者,人們腦中浮現出的是 Meta 的 LLaMA,是 Albert Gu 的 Mamba。

到了現在,毋庸置疑,中國大模型屆的開源力量已經閃耀全球,用實力改寫 " 刻板印象 "。

1 月 20 日,蛇年春節前夕,是一個國内外大模型神仙打架的日子。

最矚目的是,DeepSeek-R1 在這一天問世,它推理性能比肩 OpenAI o1,成本卻僅後者 1/3。

影響之巨大,一夜讓英偉達蒸發 5890 億美元(約合人民币 4.24 萬億元),創下美股單日跌幅最大紀錄。

更重要也更耀眼的是,R1 之所以上升到億萬人為之興奮的高度,除了推理優異、價格親民,更重要的是它身上的開源屬性。

一石激起千層浪,連長期被戲谑「不再 open」的 OpenAI,都有 CEO 奧特曼屢次出來公開發言。

奧特曼說:" 在開源權重 AI 模型這個問題上,(個人認為)我們站在了歷史錯誤的一邊。"

他還說:" 世界上确實需要開源模型,它們可以為人們提供大量價值。我很高興,世界上已經有一些優秀的開源模型。"

現在,階躍也開始開源手裡的新王牌了。

并且開源是初衷。

官方表示,開源 Step-Video-T2V 和 Step-Audio,目的就是促進大模型技術的共享與創新,推動人工智能的普惠發展。

開源一出場就憑實力在多個評測集上秀一把。

現在的開源大模型的牌桌上,DeepSeek 強推理,階躍 Step 重多模态,還有各式各樣持續發育的選手……

它們的實力不僅是在開源圈子裡拔尖,放眼整個大模型圈子,都很夠看。

——中國開源力量,在嶄露頭角後,正在更進一步。

以階躍這次開源為例,突破的是多模态領網域的技術,改變的是全球開發者的選擇邏輯。

Eleuther AI 等很多開源社區活躍的技術大 v,紛紛主動下場測試階躍的模型," 感謝中國開源 "。

抱抱臉中國區負責人王鐵震直接表示,階躍會是下一個 "DeepSeek"。

從「技術突圍」到「生态開放」,中國大模型的路越走越穩。

話說回來,階躍今次開源雙模型,或許只是 2025 年 AI 競賽的一個注腳。

更深層次的,它展現了中國開源力量的技術自信,并傳遞出一個信号:

未來的 AI 大模型世界,中國力量絕不缺席,也絕不落于人後。

【Step-Video-T2V】

GitHub:

https://github.com/stepfun-ai/Step-Video-T2V

抱抱臉:

https://huggingface.co/stepfun-ai/stepvideo-t2v

魔搭 Model Scope:

https://modelscope.cn/models/stepfun-ai/stepvideo-

技術報告:

https://arxiv.org/abs/2502.10248

體驗入口

https://yuewen.cn/videos

【Step-Audio】

GitHub:

https://github.com/stepfun-ai/Step-Audio

抱抱臉:

https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b

魔搭 Model Scope:

https://modelscope.cn/collections/Step-Audio-a47b227413534a

技術報告:

https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf

—    —

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

關于全球最大開源視頻模型,現在也Created in China了,階躍出品就分享完了,您有什麼想法可以聯系小編(寸飛蘭)。