谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型

谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型

    正在检查是否收录...
一言准备中...

划重点:

⭐️ Google AI 团队提出了 ScreenAI,这是一个视觉语言模型,可以全面理解 UI 和信息图。

⭐️ ScreenAI 在多个任务上表现出色,包括图形问答(QA),元素注释,摘要生成等。

⭐️ 该团队发布了三个新数据集,为未来研究提供更多资源。

Google AI 最近提出了 ScreenAI,这是一个视觉语言模型,旨在全面理解用户界面(UI)和信息图。UI 和信息图在现代数字世界中共享设计概念和视觉语言,但由于每个领域的复杂性,创建一个统一的模型变得更加困难。为了解决这个问题,Google AI 团队提出了 ScreenAI 作为解决方案。

ScreenAI 具有处理图形问答(QA)等任务的能力,这些任务可能涉及图表、图片、地图等元素。该模型结合了来自 Pix2struct 的灵活 patching 方法和 PaLI 架构,使其能够将视觉相关任务转化为文本或图像到文本问题。

团队进行了多项测试,展示了这些设计决策如何影响模型的功能。经评估,ScreenAI 在诸如 Multipage DocVQA、WebSRC、MoTIF 和 Widget Captioning 等任务上取得了新的最先进结果,参数数量不到50亿。在诸如 DocVQA、信息图 QA 和图表 QA 等任务上表现出色,优于同等规模模型。

团队发布了三个新数据集:Screen Annotation、ScreenQA Short 和 Complex ScreenQA。其中一个数据集专注于未来研究的屏幕注释任务,另外两个数据集则专注于问答,进一步扩展了可用资源,以推动该领域的发展。

ScreenAI 是朝着综合解决信息图和用户界面理解问题的一步。通过利用这些组件的共同视觉语言和复杂设计,ScreenAI 为理解数字内容提供了全面的方法。

论文地址:https://arxiv.org/abs/2402.04615

信息图数据集视觉语言google语言模型视觉语言模型用户界面vqadoc解决方案摘要生成web设计决策arxiv
  • 本文作者:WAP站长网
  • 本文链接: https://wapzz.net/post-8263.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.7W+
9
1
2
WAP站长官方

创作活动(九十三)———ChatGPT 和文心一言哪个更好用?

上一篇

20分钟学会装配电路板!开源SERL框架精密操控成功率100%,速度三倍于人类

下一篇
  • 复制图片
按住ctrl可打开默认菜单