扳回一局!Gemini-Pro多模态能力和GPT-4V不相上下

扳回一局!Gemini-Pro多模态能力和GPT-4V不相上下

    正在检查是否收录...

近期的Gemini-Pro评测报告显示其在多模态领域取得了显著的进展,与GPT-4V不相上下,甚至在某些方面表现更为出色。首先,在多模态专有基准MME上的综合表现中,Gemini-Pro以1933.4的高分超越了GPT-4V,展现出在感知和认知方面的全面优势。而在37个视觉理解任务中,Gemini-Pro在文本翻译、颜色/地标/人物识别以及OCR等任务中表现突出,显示了其在基础感知领域的卓越能力。

论文地址:https://arxiv.org/pdf/2312.12436.pdf

项目地址:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

然而,评测也揭示了两者的差异。在名人识别任务上,GPT-4V的得分为0,主要因其拒绝回答相关问题。而在位置识别任务中,两者都呈现出不佳的表现,显示它们对空间位置信息的不敏感。此外,开源模型SPHINX在感知任务上与GPT-4V和Gemini平齐甚至更优,但在认知方面存在较大差距。

评测报告分为基础感知、高级认知、挑战性视觉任务和各种专家能力四大领域,对Gemini-Pro的视觉理解能力进行了详细评估。基础感知测试涵盖了对象级感知、场景级感知和基于知识的感知能力,其中Gemini-Pro在颜色/地标/人物识别和OCR等任务中的表现突出。

高级认知测试则涉及富含文本的视觉推理、抽象视觉推理、解决科学问题、情感分析和智力游戏等任务,显示Gemini-Pro在公式生成和抽象视觉刺激方面取得良好成绩。

挑战性视觉任务包括指称表达式理解、目标跟踪和视觉故事生成等,Gemini-Pro在这些任务中展现了深厚的视觉感知和理解能力。最后,各种专家能力测试涉及缺陷检测和经济分析等任务,Gemini-Pro在股价走势图的分析上显示了出色的专业知识。然而,评测也指出Gemini-Pro在一些任务上存在幻觉问题,需要进一步改进。

Gemini-Pro在多模态领域取得了令人瞩目的成就,展现了其在视觉理解能力上的强大潜力。然而,评测也突显了在特定任务和领域仍需进一步提升的空间。Gemini-Pro的表现表明了多模态技术的潜在威力,为未来的研究和应用提供了有益的启示。

geminigpt-4多模态gpt视觉理解ocrpdf视觉推理专业知识urlmultimodal故事生成目标跟踪公式生成视觉故事视觉感知git开源模型文本翻译github情感分析arxiv
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-3997.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

Mac和Windows一键安装Stable Diffusion WebUI,Lama Cleaner,SadTalker,等AI工具,使用国内镜像,无需魔法。

上一篇

实力强的大模型都有哪些超能力?

下一篇
  • 复制图片
按住ctrl可打开默认菜单