新AI框架DreamSync:结合图像理解模型的反馈 改善文本到图像合成

新AI框架DreamSync:结合图像理解模型的反馈 改善文本到图像合成

    正在检查是否收录...
一言准备中...

来自南加州大学、华盛顿大学、巴伊兰大学和谷歌研究团队的研究人员推出了DreamSync,这是一种新型人工智能框架,致力于解决扩散型文本到图像(T2I)模型中对齐和审美吸引力的问题,而无需进行人工标注、修改模型架构或使用强化学习。

DreamSync的方法是通过生成候选图像,利用视觉问答(VQA)模型对其进行评估,然后对文本到图像模型进行微调。此过程无需特定的架构或标记数据,采用了模型不可知的框架,并利用视觉语言模型(VLMs)来识别生成的图像与输入文本之间的差异。该框架的关键步骤包括生成多个候选图像,使用两个专用的VLMs对它们进行文本忠实度和图像美感的评估,然后选择VLM反馈确定的最佳图像进行文本到图像模型的微调,迭代至收敛。

此外,框架还引入了迭代自举方法,利用VLMs作为教师模型对未标记数据进行标记,用于T2I模型的训练。

DreamSync成功提升了SDXL和SD v1.4T2I模型的性能。在TIFA上进行的实验显示,对SDXL进行三次迭代,文本忠实度提高了1.7%和3.7%,视觉美感提高了3.4%。将DreamSync应用于SD v1.4,文本忠实度提高了1%,TIFA上的得分绝对增加了1.7%,美感提高了0.3%。

在与SDXL的比较研究中,DreamSync在对齐方面表现更好,生成的图像具有更相关的组件和3.4个更正确的答案。在TIFA和DSG基准测试中,DreamSync实现了更卓越的文本忠实度,而不损害视觉外观,显示出随着迭代的逐渐改进。

DreamSync是一个多功能的框架,在具有挑战性的T2I基准测试中进行了评估,显示出在分布内外场景中对齐和视觉吸引力方面的显著改进。该框架结合了来自视觉语言模型的双重反馈,并通过人类评分和偏好预测模型进行了验证。

未来,DreamSync的改进方向包括通过详细注释(如边界框)来巩固反馈,调整每次迭代的提示以针对文本到图像合成中的特定改进,探索语言结构和注意力图以增强属性-对象绑定,以及使用人类反馈训练奖励模型,以进一步使生成的图像与用户意图一致。同时,拓展DreamSync的应用到其他模型架构,并在不同场景中进行性能评估和额外研究也是未来持续调查的方向。

论文网址:https://arxiv.org/abs/2311.17946

dream文本到图像sdxllms视觉语言吸引力视觉语言模型图像模型语言模型t2i模型人工智能url文本到图像合成性能评估视觉吸引力vqa边界框奖励模型研究人员视觉问答注意力预测模型多功能图像合成强化学习arxiv
  • 本文作者:WAP站长网
  • 本文链接: https://wapzz.net/post-2571.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.7W+
9
1
2
WAP站长官方

stable diffusion插件controlnet的详细讲解以及用法说明

上一篇

亚马逊AI工具Q被“锤爆”:不够精准、侵犯隐私、存在幻觉、泄露数据

下一篇
  • 复制图片
按住ctrl可打开默认菜单