新AI框架HyperHuman:用于生成具有潜在结构扩散的超真实人类

新AI框架HyperHuman:用于生成具有潜在结构扩散的超真实人类

    正在检查是否收录...
一言准备中...

近日,一项名为HyperHuman的新型人工智能框架正式亮相,为生成超逼真人体图像开创了崭新纪元。这一框架的重要突破在于结合了结构扩散技术,成功克服了以往模型在生成人体图像中面临的种种挑战。

用户无需专业技能,只需提供文本和姿势等条件,HyperHuman就能从中生成高度逼真的人体图像。这对于图像动画、虚拟试穿等多种应用具有深远意义。以往的方法要么依赖于变分自动编码器(VAEs)以一种重建方式,要么通过生成对抗网络(GANs)提高逼真度。然而,这些方法在训练不稳定和模型容量有限的情况下,往往仅适用于小规模数据集,导致生成的图像缺乏多样性。

HyperHuman框架引入了结构扩散模型(DMs),成为生成AI中的主导架构。尽管先前的文本到图像模型(T2I)在使用结构扩散时仍然面临挑战,HyperHuman通过Latent Structural Diffusion Model和Structure-Guided Refiner的组合,成功解决了人体形态的非刚性变形问题。这两个模块相互协作,使得图像的外观、空间关系和几何在一个统一的网络中协同建模。

HyperHuman的关键在于认识到人体图像在多个层次上都具有结构性质,从粗粒度的身体骨架到细粒度的空间几何。为了实现这一点,研究人员建立了一个名为HumanVerse的大规模人体中心数据集,其中包含340百万张野外人体图像,并进行了详细的注释。基于这个数据集,HyperHuman设计了两个关键模块,分别是Latent Structural Diffusion Model和Structure-Guided Refiner。前者通过增强预训练扩散骨干,同时去噪RGB、深度和法线等方面,确保了纹理和结构的空间对齐。后者则通过空间对齐的结构图为详细、高分辨率的图像生成提供了预测条件。

此外,HyperHuman还采用了强大的调制方案,以减轻两阶段生成流程中错误累积的影响。通过精心设计的噪声计划,低频信息泄漏得以消除,确保了本地区域深度和表面法线值的均匀性。每个分支使用相同的时间步长增强学习,促进了特征融合。这一整套设计保证了模型对于结构性和纹理丰富性的统一处理。

与当前技术的比较结果显示,HyperHuman在生成的图像中展现了卓越的质量。在每行的第一个4×4网格中,展示了由HyperHuman计算的输入骨架、联合去噪法线、深度和粗糙RGB(512×512)。

HyperHuman的出现为生成超逼真人体图像提供了一种全新的方法,突破了以往模型的局限性,为未来的虚拟试穿、图像动画等应用带来了更为广阔的可能性。

项目网址:https://snap-research.github.io/HyperHuman/

论文网址:https://arxiv.org/abs/2310.08579

数据集ideguidiffusion图像动画虚拟试穿人工智能url多样性snap预训练研究人员图像模型git图像生成gan高分辨率生成对抗网络生成aigithub文本到图像扩散模型arxiv
  • 本文作者:WAP站长网
  • 本文链接: https://wapzz.net/post-1616.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.7W+
9
1
2
WAP站长官方

AI创作教程之Stable Diffusion 与Photoshop融合使用(含安装方法)

上一篇

外传-Midjourney的局部重绘功能

下一篇
  • 复制图片
按住ctrl可打开默认菜单