高馬爾
一個信息發佈的網站

字節視頻基礎大模型發布!單GPU就可生成1080P,蔣路領銜Seed視頻團隊曝光

今天小編(幸聽楓)要和大家分享的是字節視頻基礎大模型發布!單GPU就可生成1080P,蔣路領銜Seed視頻團隊曝光,歡迎閱讀~

字節 Seed 團隊視頻生成基礎模型,來了。

Seaweed 海藻,"Seed-Video" 的縮寫(真是好一個諧音梗!)。

首發僅 70 億參數,卻能實現超越同類 140 億參數視頻模型的效果——

它能根據文本描述創建各種分辨率(原生支持 1280x720 分辨率)、任意寬高比和時長的視頻。

比如直接來個 20 秒的 Driving 長鏡頭。

它是使用 665000 H100 GPU 小時完成訓練,而同類模型通常需要超百萬 GPU 小時,其相當于是 1000 個 H100 訓練 27.7 天完成。

而且中小團隊可部署,僅需 40GB 顯存單 GPU 就可生成分辨率達 1280x720 的視頻。

來看看短片展現出來的基礎實力,整個視頻唯一需要手動添加的是背景音樂和片尾字幕。

字節最新視頻生成模型

作為基礎模型,其标志性功能一定得具備。

比如像開頭小短片這種人 / 動物、景觀生成已經屬于是灑灑水。

它支持影像生成模型,控制功能也增強,并支持首尾幀調節

并且支持微調,根據「參考主體」影像生成視頻,單幅多幅都可以,将其合成為動态視頻序列。

而結合字節多模态數字人方案Omnihuman——一張圖、一段音頻,就可以生成一段人物視頻。它可以創建人聲更為匹配人物角色,唇部、肢體動作都跟着音頻一起同步。

此外,它還支持用視頻生成音頻,來配合視頻的叙事場景、風格。

來感受一下 ~

在這些基礎功能之上,Seaweed 還技術大放送,結合過往技術成果展現了新的體驗。

長篇故事叙述,用戶既可以為整體叙事提供全局文本描述,也可以為每個鏡頭提供細粒度的文本描述。

這背後結合「長上下文調優」、面向長篇叙述生成「VideoAuteur」等技術。

高分辨率

除了原生支持 1280x720 分辨率,還支持進一步采樣至 2K(2560x1440)。

背後是基于SeedVR,基于 Diffusion Transformer 實現通用視頻修復。

實時生成

可實時生成分辨率為 1280x720、幀率為 24fps 的視頻。

此外,還支持「攝影機」控制生成、物理一致性生成,背後分别有 CameraCtrl II、SimDrop 技術加持。

與其他模型對比情況。

影像到視頻任務。

文本到視頻的任務。

在單個 H100 GPU 運行中,Seaweed 響應速度是 Wan-2.1(參數量是前者兩倍)的 62 分之一。

技術報告:三大技術創新

不過更詳細的技術細節,還是集中在技術報告裡。

整篇技術報告核心讨論的就是一個問題:在視頻生成基礎模型的訓練上,如何實現低成本高效益

他們選擇訓練一個中等規模的模型——約 70 億個參數的 DiT 模型,使用665000個 H100 GPU Hours 從頭開始訓練該模型,相當于在 1000 個 H100 GPU 上訓練 27.7 天。

具體在數據處理、模型架構設計、以及訓練策略和優化方面三個方面的技術創新。

首先是數據這塊。

他們有一套全面的數據處理管道,其中包括但不限于時間分割、空間裁剪、質量過濾、多視角數據平衡、重復數據删除和視頻字幕。

每一個步驟都有他們詳細的處理細節。

以字幕任務為例,他們發現使用更大的 72B LLM 可以減少幻覺。但是,使用 72B 模型為數百萬個視頻生成視頻字幕的計算成本要高得多。

于是他們選擇将 72B 作為教師模型然後蒸餾出 7B 的學生模型,節約成本的同時還提高了準确率。此外他們還将詳細字幕「推導」成簡短字幕,類似于思維鏈過程,結果進一步提高簡短字幕的準确率——從 84.81% 到 90.84%。

利用這一基礎設施,他們每天可以處理超過500000 小時的視頻數據。

然後再是模型架構設計上面,由 64x 壓縮比 VAE 與 Diffusion Transformer 結合組成 Seaweed 。

VAE 這邊,由一個編碼器和一個解碼器組成,編碼器将原始像素數據壓縮到一個緊湊的潛在空間,解碼器則根據這些潛在特征重建原始輸入像素。理想的 VAE 應在保持較高重建質量的同時實現較高的壓縮比。

這種設計為視頻生成提供了兩個優勢,首先,它統一了影像和視頻編碼,使第一幀條件影像視頻生成任務變得自然。其次,它消除了兩個推斷片段之間邊界的閃爍,并允許編碼和解碼任意長的視頻,而無需人工拼接。

而在 Diffusion Transformer 這邊,他們用影像和視頻的原始分辨率和持續時間對它們進行混合訓練。為了平衡運行時間的計算,較短的序列被打包在一起。

最後就是多階段多任務學習訓練策略

他們采用了從低分辨率到高分辨率的多階段漸進式的訓練策略。這一設計側重于在訓練過程中戰略性地分配 GPU 資源,以提高整體質量。

Pre-Training 階段,他們只通過低分辨率影像對模型進行預訓練,這樣就能建立文本摘要與常見視覺概念之間的對齊關系。

Post-training 階段。我們會應用監督微調(SFT),然後是人類反饋強化學習(RLHF),以進一步提高輸出結果的美學質量、動作一致性和結構連貫性。

Just Like This~

這一階段分别針對文本到視頻和影像到視頻任務進行。

而在更具體 Infra 層面的優化,他們還做了這些方面的措施。

比如采用并行策略在長語境視頻中訓練 7B 模型;引入了運行時平衡(Runtime Balance)策略,以減輕影像和視頻聯合訓練過程中的負載不平衡;還設計了多級激活檢查點(MLAC),以減少 GPU 内存使用量和重新計算開銷。

最後,還通過實施融合的 CUDA 内核來簡化零散的 I/O 操作,從而優化 GPU 利用率。

因此,在大規模分布式訓練中,Seaweed-7B 的模型 FLOPs 利用率(MFU)達到了 38%。

Seed 研究團隊大曝光

而在官網最後,背後研究團隊也都全部曝光。

由蔣路、馮佳時、楊振恒、楊建超帶領的研究團隊。

其中蔣路正是去年加盟字節的前谷歌高級科學家,曾負責谷歌視頻生成工作,在多個谷歌產品(如 YouTube、雲服務、AutoML、廣告、Waymo 和翻譯)中做出了重要貢獻,同時也是 CMU 兼職教授。

馮佳時則是首次曝光的「關鍵 8 人」之一,大模型視覺基礎研究團隊負責人,專注于計算機視覺、機器學習領網域的相關研究及其在多媒體中的應用。

具體研究團隊成員如下:

基礎設施以及貢獻者還有這些:

參考鏈接:

[ 1 ] https://seaweed.video/

[ 2 ] https://arxiv.org/abs/2504.08685

[ 3 ] https://x.com/CeyuanY/status/1911618555210334350

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—    —

不到一周!中國 AIGC 產業峰會觀眾正在火熱報名中  ‍♀️

全部嘉賓已就位   百度、華為、AWS、MSRA、無問芯穹、數勢科技、面壁智能、生數科技等十數位 AI 領網域創變者将齊聚峰會,讓更多人用上 AI、用好 AI,與 AI 一同加速成長~

4 月 16 日周三,就在北京,一起來深度求索 AI 怎麼用  

一鍵星标

科技前沿進展每日見

關于字節視頻基礎大模型發布!單GPU就可生成1080P,蔣路領銜Seed視頻團隊曝光就分享完了,您有什麼想法可以聯系小編(幸聽楓)。