新AI框架HyperHuman：用于生成具有潜在结构扩散的超真实人类

WAP站长网发布于 2025-6-24 16:21 阅读：35 SEO教程

近日，一项名为HyperHuman的新型人工智能框架正式亮相，为生成超逼真人体图像开创了崭新纪元。这一框架的重要突破在于结合了结构扩散技术，成功克服了以往模型在生成人体图像中面临的种种挑战。

用户无需专业技能，只需提供文本和姿势等条件，HyperHuman就能从中生成高度逼真的人体图像。这对于图像动画、虚拟试穿等多种应用具有深远意义。以往的方法要么依赖于变分自动编码器（VAEs）以一种重建方式，要么通过生成对抗网络(GANs)提高逼真度。然而，这些方法在训练不稳定和模型容量有限的情况下，往往仅适用于小规模数据集，导致生成的图像缺乏多样性。

HyperHuman框架引入了结构扩散模型（DMs），成为生成AI中的主导架构。尽管先前的文本到图像模型(T2I)在使用结构扩散时仍然面临挑战，HyperHuman通过Latent Structural Diffusion Model和Structure-Guided Refiner的组合，成功解决了人体形态的非刚性变形问题。这两个模块相互协作，使得图像的外观、空间关系和几何在一个统一的网络中协同建模。

HyperHuman的关键在于认识到人体图像在多个层次上都具有结构性质，从粗粒度的身体骨架到细粒度的空间几何。为了实现这一点，研究人员建立了一个名为HumanVerse的大规模人体中心数据集，其中包含340百万张野外人体图像，并进行了详细的注释。基于这个数据集，HyperHuman设计了两个关键模块，分别是Latent Structural Diffusion Model和Structure-Guided Refiner。前者通过增强预训练扩散骨干，同时去噪RGB、深度和法线等方面，确保了纹理和结构的空间对齐。后者则通过空间对齐的结构图为详细、高分辨率的图像生成提供了预测条件。

此外，HyperHuman还采用了强大的调制方案，以减轻两阶段生成流程中错误累积的影响。通过精心设计的噪声计划，低频信息泄漏得以消除，确保了本地区域深度和表面法线值的均匀性。每个分支使用相同的时间步长增强学习，促进了特征融合。这一整套设计保证了模型对于结构性和纹理丰富性的统一处理。

与当前技术的比较结果显示，HyperHuman在生成的图像中展现了卓越的质量。在每行的第一个4×4网格中，展示了由HyperHuman计算的输入骨架、联合去噪法线、深度和粗糙RGB（512×512）。

HyperHuman的出现为生成超逼真人体图像提供了一种全新的方法，突破了以往模型的局限性，为未来的虚拟试穿、图像动画等应用带来了更为广阔的可能性。

项目网址:https://snap-research.github.io/HyperHuman/

论文网址:https://arxiv.org/abs/2310.08579

数据集ideguidiffusion图像动画虚拟试穿人工智能url多样性snap预训练研究人员图像模型git图像生成gan高分辨率生成对抗网络生成aigithub文本到图像扩散模型arxiv