一张图，快速生成可拆分3D角色！腾讯清华新SOTA

今天小编(習又夏)要和大家分享的是一张图，快速生成可拆分3D角色！腾讯清华新SOTA,欢迎阅读~

任意一张立绘，就可以生成可拆分 3D 角色！

来自腾讯 AI Lab、清华提出StdGEN。与以往方法在分拆能力有限、质量不理想和优化时间过长等问题上表现不佳不同，它具备高质量、高效性和可分拆性，能够在 3 分钟内生成具有精细细节的 3D 角色（粗粒度模型仅需 1 分钟），并分离出语义组件，如身体、衣服和头发。

可以预见到它能够为虚拟现实、游戏和电影制作等领網域注入新的活力！该研究成果接收于 CVPR 2025，代码和在线 Gradio Demo 已开源。

StdGEN 的核心是语义感知大规模重建模型 （S-LRM），这是一个基于 Transformer 的可泛化模型，以前馈方式从多视角影像中联合重建几何、颜色和语义信息。

此外，还引入了一种可微分的多层语义表面提取方案，用于从 S-LRM 重建的混合隐式场中获取网格。

在流程中，还集成了专门设计的多视角扩散模型和迭代式的多层优化模块，以促进高质量、可分解的 3D 角色生成。

大量实验表明，他们在 3D 动漫角色生成方面达到了最先进的性能，在几何、纹理和分解性方面显著超越了现有基线，并在真人数据等风格具有泛化性。

StdGEN 提供了可直接使用的语义分解的 3D 角色模型，为广泛的应用场景提供了灵活的定制能力。

△图 1 StdGEN 应用流程单图生成可解耦 3D 角色 StdGEN

StdGEN 首先从参考角色影像生成多视角标准角色影像。为了从多视角影像重建可分解的 3D 角色，他们在 LRM（大型重建模型）的基础上扩展了语义场，从而实现基于语义的分层生成。最后通过多层优化过程来增强结果，改进几何结构并提供更精细的纹理。

由于直接从任意姿态参考图重建 3D 角色模型可能会受到不同视角下自遮挡的影响，本方法首先将参考角色影像转化为多视角的标准姿态角色影像。

这一过程包括两个步骤：

（1）将任意参考影像规范化为 A-pose 角色，通过训练扩散模型 + 影像条件的 ReferenceNet，在生成过程中不断引入角色参考图信息，生成 A-pose 下的标准角色影像；

（2）从 A-pose 影像生成多视角 RGB 影像和法线贴图（共 6 个视角），通过训练多视角扩散模型完成，为后续 3D 重建和优化提供充足信息。

△图 2 带语义感知的大型重建模型（S-LRM）示意图

接下来将上一阶段生成的影像提取为特征并输入带语义感知的大型重建模型（S-LRM），得到基于 Triplane 的三维隐式特征，该特征被进一步解码为颜色、体密度、语义和带符号距离场（SDF）等显式三维信息，为了实现语义解耦的三维角色生成，他们提出了一种新的语义等价神经隐式场和带符号距离场公式，用于根据特定语义提取角色的不同部分，能够实现角色各部分的语义分解，得到拆分后的粗糙三维模型。