今天小编(幸聽楓)要和大家分享的是Stable Diffusion变身3D神器!一个LoRA将2D影像转3D模型,欢迎阅读~
在 Stable Diffusion 当中,只需加入一个 LoRA 就能根据影像创建 3D 模型了?
港科大(广州)与趣丸科技合作推出了全新三维生成大模型——Kiss3DGen,创新性地将 3D 生成与成熟的影像生成模型进行了对齐。
并且与主流 2D 扩散模型技术(如 ControlNet、Flux-Redux)兼容协同,无需额外训练即可即插即用。
△由 Kiss3DGen 生成的场景
即使在有限的训练数据条件下,Kiss3DGen 仍能生成高质量的 3D 资产,减少对大规模数据的依赖,同时在灵活性和性能方面表现出色。
目前,Kiss3DGen 单独使用效果已优于现有开源方法,而且在与现有方法相结合后,性能可进一步增强。
将 3D 生成转换为 2D 生图
Kiss3DGen 的核心创新点在充分利用现有 2D 影像生成模型的知识与框架,将多视图影像和对应法线贴图拼接成三维聚合图(3D Bundle Image),把传统 3D 生成问题转化为 2D 影像生成任务。
这种方式无需调整现有 2D 模型的结构,能够最大程度继承其成熟的技术优势。
具体流程可分为两大步骤:
三维聚合图生成:利用 DiT(Diffusion Transformer)模型的全局感知能力,高效生成高度对齐的多视图影像及对应法线贴图,无需调整 2D 模型结构,即可继承其成熟技术优势。
Mesh 与纹理重建:利用生成的法线贴图进行 Mesh 重建,通过影像部分生成对应的贴图。整个过程无需额外训练,可直接使用现有重建方法完成高质量 3D 资产生成。
在训练阶段,需要构建高质量文本 -3D 数据集,使用 LoRA 技术对预训练的文本 - 影像扩散模型(如 Flux 或 SD3.5)进行微调,生成高度符合文本描述的三维聚合图。
而生成阶段又可以分为两个环节——
首先利用训练好的模型,根据输入文本提示,生成包含 3D 模型多视角信息的三维聚合图。
然后,通过 LRM 或球体初始化方法粗略重建几何和纹理,再通过网格优化与纹理投影技术(如 ISOMER),精确重建 3D 模型的几何形状和纹理细节。
团队简介
该研究的作者为林坚涛、杨鑫以及陈美羲,他们是来自于香港科技大学(广州)ENVISION 实验室的硕博生。
本工作由趣丸科技资助,由陈颖聪教授带领硕博研究团队与趣丸科技联合打造。
陈颖聪,香港科技大学(广州)人工智能学網域助理教授,博导,受国家人才计划青年项目资助,他长期致力于计算机视觉和视觉生成模型的研究,已在 TPAMI、CVPR、ICCV、ECCV 等顶级会议和期刊发表五十余篇论文。
陈教授的研究方向包括三维生成与重建、影像视频生成等,并多次以第一作者身份在顶级会议上做口头报告。
他的研究成果屡获大奖,包括 ICCV 2023 最佳论文提名和中国影像图形学会自然科学奖一等奖。
同时,陈教授也在多个学术会议和期刊中担任程式委员会成员或审稿人,并与多个科技公司建立了深入的合作关系。
论文:
https://arxiv.org/abs/2503.01370
代码:
https://github.com/EnVision-Research/Kiss3DGen
项目主页:
https://ltt-o.github.io/Kiss3dgen.github.io
在线体验:
https://gen3d.funnycp.com
实验室主页:
https://envision-research.hkust-gz.edu.cn/index.html
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
学术投稿请于工作日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
点亮星标
科技前沿进展每日见
关于Stable Diffusion变身3D神器!一个LoRA将2D影像转3D模型就分享完了,您有什么想法可以联系小编(幸聽楓)。