GPT-4V都考不过?基于大学水平考试的多模态AI测试基准MMMUs发布

GPT-4V都考不过?基于大学水平考试的多模态AI测试基准MMMUs发布

    正在检查是否收录...
一言准备中...

近日,一项基于大学水平考试的多模态AI测试基准MMMUs发布,旨在评估机器在广泛多样的任务上的专家级多模态理解和推理能力。这一基准对当前最先进的GPT-4V等模型提出挑战,通过涵盖艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等六个学科的30个科目,共有1.15万个问题,考察了感知、知识和推理等基本技能。

论文地址:https://arxiv.org/abs/2311.16502

项目网站:https://mmmu-benchmark.github.io/

数据集:https://huggingface.co/datasets/MMMU/MMMU

代码:https://github.com/MMMU-Benchmark/MMMU

MMMUs的问题涵盖了大学考试、测验和教科书,由50位来自不同学科的大学生收集,涉及了多种图像格式,从照片和绘画到图表和表格。这使得该基准不仅考察了常识和日常知识,还注重专业领域知识和高级推理。此外,MMMUs具有文本和图像混合的输入,要求AI模型在处理这种混合信息时展现深度学科知识和执行复杂推理的能力。

在实验评估中,MMMUs展现出极大的难度,即使是当前最先进的GPT-4V也仅在55.7%的问题上取得准确答案,表明AI技术在这一领域仍有巨大的改进空间。通过这一基准的构建和评估,研究团队为进一步推动人工智能系统的发展和深入研究提供了有力的工具和参考。

总体而言,MMMUs作为一项全面、具有挑战性的多模态AI测试基准,为评估专家级AGI的发展提供了新的视角和标准。这将有助于推动人工智能领域的发展,引领未来人工智能系统在多学科、多模态任务上取得更为卓越的成就。

多模态人工智能git智能系统人工智能系统多模态aigptgpt-4githuburl准确答案多学科教科书ai模型多模态理解huggingface大学生数据集ai技术arxiv
  • 本文作者:WAP站长网
  • 本文链接: https://wapzz.net/post-2178.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.7W+
9
1
2
WAP站长官方

CHATGPT制作AI绘画

上一篇

如何使用免费的Copilot,国内开启Copilot的方法!

下一篇
  • 复制图片
按住ctrl可打开默认菜单