今天小編(習又夏)要和大家分享的是一張圖,快速生成可拆分3D角色!騰訊清華新SOTA,歡迎閲讀~
任意一張立繪,就可以生成可拆分 3D 角色!
來自騰訊 AI Lab、清華提出StdGEN。與以往方法在分拆能力有限、質量不理想和優化時間過長等問題上表現不佳不同,它具備高質量、高效性和可分拆性,能夠在 3 分鍾内生成具有精細細節的 3D 角色(粗粒度模型僅需 1 分鍾),并分離出語義組件,如身體、衣服和頭發。
可以預見到它能夠為虛拟現實、遊戲和電影制作等領網域注入新的活力!該研究成果接收于 CVPR 2025,代碼和在線 Gradio Demo 已開源。
StdGEN 的核心是語義感知大規模重建模型 (S-LRM),這是一個基于 Transformer 的可泛化模型,以前饋方式從多視角影像中聯合重建幾何、顏色和語義信息。
此外,還引入了一種可微分的多層語義表面提取方案,用于從 S-LRM 重建的混合隐式場中獲取網格。
在流程中,還集成了專門設計的多視角擴散模型和迭代式的多層優化模塊,以促進高質量、可分解的 3D 角色生成。
大量實驗表明,他們在 3D 動漫角色生成方面達到了最先進的性能,在幾何、紋理和分解性方面顯著超越了現有基線,并在真人數據等風格具有泛化性。
StdGEN 提供了可直接使用的語義分解的 3D 角色模型,為廣泛的應用場景提供了靈活的定制能力。
△圖 1 StdGEN 應用流程單圖生成可解耦 3D 角色 StdGEN
StdGEN 首先從參考角色影像生成多視角标準角色影像。為了從多視角影像重建可分解的 3D 角色,他們在 LRM(大型重建模型)的基礎上擴展了語義場,從而實現基于語義的分層生成。最後通過多層優化過程來增強結果,改進幾何結構并提供更精細的紋理。
由于直接從任意姿态參考圖重建 3D 角色模型可能會受到不同視角下自遮擋的影響,本方法首先将參考角色影像轉化為多視角的标準姿态角色影像。
這一過程包括兩個步驟:
(1)将任意參考影像規範化為 A-pose 角色,通過訓練擴散模型 + 影像條件的 ReferenceNet,在生成過程中不斷引入角色參考圖信息,生成 A-pose 下的标準角色影像;
(2)從 A-pose 影像生成多視角 RGB 影像和法線貼圖(共 6 個視角),通過訓練多視角擴散模型完成,為後續 3D 重建和優化提供充足信息。
△圖 2 帶語義感知的大型重建模型(S-LRM)示意圖
接下來将上一階段生成的影像提取為特征并輸入帶語義感知的大型重建模型(S-LRM),得到基于 Triplane 的三維隐式特征,該特征被進一步解碼為顏色、體密度、語義和帶符号距離場(SDF)等顯式三維信息,為了實現語義解耦的三維角色生成,他們提出了一種新的語義等價神經隐式場和帶符号距離場公式,用于根據特定語義提取角色的不同部分,能夠實現角色各部分的語義分解,得到拆分後的粗糙三維模型。
△圖 3 帶語義感知的大型重建模型(S-LRM)通過指定語義提取三維信息示意圖
為了訓練該模型學習多層語義信息的能力,團隊提出了三階段訓練流程,通過在已有大型重建模型的權重以及添加 LoRA 的方式使訓練更快進行:
(1)訓練單層語義的神經輻射場(NeRF),學習足夠可靠的三維表面及其語義信息,用于更好的引導後續訓練;
(2)訓練多層語義的神經輻射場(NeRF),通過屏蔽随機數量的語義及其對應的三維信息部分引導物體内部的語義、幾何和顏色信息生成;
(3)訓練多層語義的帶符号距離場(SDF),通過在重建模型的後面加入 FlexiCubes 模塊,實現更高分辨率的監督和更貼合實際應用的三維 Mesh 網格輸出。
由于大型重建模型在幾何結構和紋理細節上的表現有限,重建後的網格通常需要進一步優化以提高細節精度。他們采取了分階段、多層次的方法,通過多視角标準化角色生成模塊生成的法線圖以及多視角一致性約束對于生成的分層三維角色結果進行迭代式優化——
首先通過指定不同的語義,提取網格的不同部分,并僅優化基礎的人體模型;優化完成後,将衣服部分疊加至人體上,固定人體基礎模型,僅優化衣服部分;最後添加頭發部分,固定之前已優化的兩層,僅優化頭發部分,實現所有模型的精細化處理。
實驗結果
首先在 Anime3D++ 數據集上進行了定量測試,包括 2D 多視角生成能力和 3D 角色生成能力。考慮到其他方法不具備從單張任意姿态影像生成可解耦的 3D 模型的能力,與其他方法對比他們的非分層結果,并在 A-pose 影像和任意姿态影像輸入上均進行測試以保證公平性。
結果表明在所有定量指标上他們的方法均優于現有方法。
與其他先進方法的定性比較結果(包含數據集網域外的測例、真人測例等)與 3D 解耦模型結果如下。
△表 1 StdGEN 及其他先進方法在 Anime3D++ 數據集上的評價結果
△圖 3 StdGEN 及其他先進方法的主觀質量對比
△圖 4 StdGEN 的 3D 解耦生成能力展示
△圖 5 StdGEN 在真人測例上的泛化能力展示(THuman2.0 數據集)實際應用
随着遊戲、虛拟現實和影視制作等行業的不斷發展,用户對角色定制化的需求日益增加。現有遊戲、虛拟現實等應用場景中要求三維角色模型的各個部分可拆分、單獨綁定動畫。
StdGEN 基于語義解耦的設計,能夠生成每個部分(如人體、衣服、頭發等)獨立的三維組件,使得生成的 3D 角色不僅具有更高的質量,還能更好地應用于現有的遊戲和虛拟現實等場景,确保其可用性和靈活性,彌補了先前工作的不足。
△圖 6 StdGEN 僅需用户進行 2D Inpainting 實現可拆分 3D 編輯
△圖 7 StdGEN 的 3D 可拆分結果能夠實現更符合人類觀感和物理特性的動畫
論文鏈接:
https://arxiv.org/abs/2411.05738
在線 Gradio Demo: https://huggingface.co/spaces/hyz317/StdGEN
GitHub 代碼倉庫: https://github.com/hyz317/StdGEN
HuggingFace 模型倉庫: https://huggingface.co/hyz317/StdGEN
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見
關于一張圖,快速生成可拆分3D角色!騰訊清華新SOTA就分享完了,您有什麼想法可以聯系小編(習又夏)。