谷歌研究团队推新AI方法SynCLR:从合成图像和字幕中学习视觉表征

谷歌研究团队推新AI方法SynCLR:从合成图像和字幕中学习视觉表征

    正在检查是否收录...

近期,Google Research和MIT CSAIL共同推出了一项名为SynCLR的新型人工智能方法,该方法旨在通过使用合成图像和字幕,实现对视觉表征的学习,摆脱对真实数据的依赖。

SynCLR的工作原理

研究团队首先提出了一个三阶段的方法。首先,在“合成图片字幕”阶段,他们采用大型语言模型的上下文学习能力,通过单词到字幕的转换示例,生成了大量的图片字幕。接着,在“生成合成图像和字幕”阶段,利用文本到图像扩散模型,生成了包含6亿张合成图片的数据集。最后,在“训练视觉表征模型”阶段,研究团队使用了掩蔽图像建模和多正对比学习,训练模型从合成数据中学到有意义的表征。

实验结果

研究结果表明,SynCLR在多个任务上取得了令人瞩目的成绩。通过与现有模型如CLIP和DINO v2进行比较,SynCLR在ImageNet-1K上的线性探测准确率以及细粒度分类和ADE20k上的语义分割任务上都表现出色。特别值得一提的是,SynCLR在以字幕为级别的细粒度上的优越性,为模型的可扩展性和在线类别增强提供了便利。

尽管SynCLR在合成数据上展现出了强大的性能,研究团队也提出了一些改进方向。其中包括使用更复杂的大型语言模型、优化不同概念之间的样本比例、探索高分辨率训练阶段等。这些改进有望进一步提升合成数据在训练人工智能模型中的效果。

项目网址:https://github.com/google-research/syn-rep-learn

论文网址:https://arxiv.org/pdf/2312.17742.pdf

合成数据人工智能pdf大型语言模型google语言模型准确率url语义分割上下文学习clip智能模型图像扩散模型对比学习可扩展性可扩展git上下文cli高分辨率github文本到图像扩散模型数据集arxiv
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-4944.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

2023-12-27 语音转文字的whisper应用部署

上一篇

Stable Diffusion 本地部署详细教程

下一篇
  • 复制图片
按住ctrl可打开默认菜单