今天小编(習又夏)要和大家分享的是一张图,快速生成可拆分3D角色!腾讯清华新SOTA,欢迎阅读~
任意一张立绘,就可以生成可拆分 3D 角色!
来自腾讯 AI Lab、清华提出StdGEN。与以往方法在分拆能力有限、质量不理想和优化时间过长等问题上表现不佳不同,它具备高质量、高效性和可分拆性,能够在 3 分钟内生成具有精细细节的 3D 角色(粗粒度模型仅需 1 分钟),并分离出语义组件,如身体、衣服和头发。
可以预见到它能够为虚拟现实、游戏和电影制作等领網域注入新的活力!该研究成果接收于 CVPR 2025,代码和在线 Gradio Demo 已开源。
StdGEN 的核心是语义感知大规模重建模型 (S-LRM),这是一个基于 Transformer 的可泛化模型,以前馈方式从多视角影像中联合重建几何、颜色和语义信息。
此外,还引入了一种可微分的多层语义表面提取方案,用于从 S-LRM 重建的混合隐式场中获取网格。
在流程中,还集成了专门设计的多视角扩散模型和迭代式的多层优化模块,以促进高质量、可分解的 3D 角色生成。
大量实验表明,他们在 3D 动漫角色生成方面达到了最先进的性能,在几何、纹理和分解性方面显著超越了现有基线,并在真人数据等风格具有泛化性。
StdGEN 提供了可直接使用的语义分解的 3D 角色模型,为广泛的应用场景提供了灵活的定制能力。
△图 1 StdGEN 应用流程单图生成可解耦 3D 角色 StdGEN
StdGEN 首先从参考角色影像生成多视角标准角色影像。为了从多视角影像重建可分解的 3D 角色,他们在 LRM(大型重建模型)的基础上扩展了语义场,从而实现基于语义的分层生成。最后通过多层优化过程来增强结果,改进几何结构并提供更精细的纹理。
由于直接从任意姿态参考图重建 3D 角色模型可能会受到不同视角下自遮挡的影响,本方法首先将参考角色影像转化为多视角的标准姿态角色影像。
这一过程包括两个步骤:
(1)将任意参考影像规范化为 A-pose 角色,通过训练扩散模型 + 影像条件的 ReferenceNet,在生成过程中不断引入角色参考图信息,生成 A-pose 下的标准角色影像;
(2)从 A-pose 影像生成多视角 RGB 影像和法线贴图(共 6 个视角),通过训练多视角扩散模型完成,为后续 3D 重建和优化提供充足信息。
△图 2 带语义感知的大型重建模型(S-LRM)示意图
接下来将上一阶段生成的影像提取为特征并输入带语义感知的大型重建模型(S-LRM),得到基于 Triplane 的三维隐式特征,该特征被进一步解码为颜色、体密度、语义和带符号距离场(SDF)等显式三维信息,为了实现语义解耦的三维角色生成,他们提出了一种新的语义等价神经隐式场和带符号距离场公式,用于根据特定语义提取角色的不同部分,能够实现角色各部分的语义分解,得到拆分后的粗糙三维模型。
△图 3 带语义感知的大型重建模型(S-LRM)通过指定语义提取三维信息示意图
为了训练该模型学习多层语义信息的能力,团队提出了三阶段训练流程,通过在已有大型重建模型的权重以及添加 LoRA 的方式使训练更快进行:
(1)训练单层语义的神经辐射场(NeRF),学习足够可靠的三维表面及其语义信息,用于更好的引导后续训练;
(2)训练多层语义的神经辐射场(NeRF),通过屏蔽随机数量的语义及其对应的三维信息部分引导物体内部的语义、几何和颜色信息生成;
(3)训练多层语义的带符号距离场(SDF),通过在重建模型的后面加入 FlexiCubes 模块,实现更高分辨率的监督和更贴合实际应用的三维 Mesh 网格输出。
由于大型重建模型在几何结构和纹理细节上的表现有限,重建后的网格通常需要进一步优化以提高细节精度。他们采取了分阶段、多层次的方法,通过多视角标准化角色生成模块生成的法线图以及多视角一致性约束对于生成的分层三维角色结果进行迭代式优化——
首先通过指定不同的语义,提取网格的不同部分,并仅优化基础的人体模型;优化完成后,将衣服部分叠加至人体上,固定人体基础模型,仅优化衣服部分;最后添加头发部分,固定之前已优化的两层,仅优化头发部分,实现所有模型的精细化处理。
实验结果
首先在 Anime3D++ 数据集上进行了定量测试,包括 2D 多视角生成能力和 3D 角色生成能力。考虑到其他方法不具备从单张任意姿态影像生成可解耦的 3D 模型的能力,与其他方法对比他们的非分层结果,并在 A-pose 影像和任意姿态影像输入上均进行测试以保证公平性。
结果表明在所有定量指标上他们的方法均优于现有方法。
与其他先进方法的定性比较结果(包含数据集網域外的测例、真人测例等)与 3D 解耦模型结果如下。
△表 1 StdGEN 及其他先进方法在 Anime3D++ 数据集上的评价结果
△图 3 StdGEN 及其他先进方法的主观质量对比
△图 4 StdGEN 的 3D 解耦生成能力展示
△图 5 StdGEN 在真人测例上的泛化能力展示(THuman2.0 数据集)实际应用
随着游戏、虚拟现实和影视制作等行业的不断发展,用户对角色定制化的需求日益增加。现有游戏、虚拟现实等应用场景中要求三维角色模型的各个部分可拆分、单独绑定动画。
StdGEN 基于语义解耦的设计,能够生成每个部分(如人体、衣服、头发等)独立的三维组件,使得生成的 3D 角色不仅具有更高的质量,还能更好地应用于现有的游戏和虚拟现实等场景,确保其可用性和灵活性,弥补了先前工作的不足。
△图 6 StdGEN 仅需用户进行 2D Inpainting 实现可拆分 3D 编辑
△图 7 StdGEN 的 3D 可拆分结果能够实现更符合人类观感和物理特性的动画
论文链接:
https://arxiv.org/abs/2411.05738
在线 Gradio Demo: https://huggingface.co/spaces/hyz317/StdGEN
GitHub 代码仓库: https://github.com/hyz317/StdGEN
HuggingFace 模型仓库: https://huggingface.co/hyz317/StdGEN
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
学术投稿请于工作日发邮件到:
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
点亮星标
科技前沿进展每日见
关于一张图,快速生成可拆分3D角色!腾讯清华新SOTA就分享完了,您有什么想法可以联系小编(習又夏)。