阿里云发布多模态大模型Qwen-VL-Max版本 性能比肩GPT-4V

阿里云发布多模态大模型Qwen-VL-Max版本 性能比肩GPT-4V

    正在检查是否收录...
一言准备中...

阿里云公布了多模态大模型的最新研究成果,继Plus版本之后,再次推出Max版本。

Qwen-VL-Max模型在视觉推理方面展现出卓越的能力,可以理解并分析复杂的图片信息,包括识人、答题、创作和写代码等任务。此外,该模型还具备视觉定位功能,可根据画面指定区域进行问答。

在基础能力方面,Qwen-VL-Max能够准确描述和识别图片信息,并根据图片进行信息推理和扩展创作。这一特性使得该模型在多个权威测评中表现出色,整体性能堪比GPT-4V和Gemini Ultra。

在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上,Qwen-VL-Max同样超越了GPT-4V,达到了世界最佳水平。

此外,Qwen-VL-Max在图像文本处理方面也取得了显著进步,中英文文本识别能力显著提高。该模型支持百万像素以上的高清分辨率图和极端宽高比的图像,不仅能完整复现密集文本,还能从表格和文档中提取信息。

目前,Qwen-VL-Plus和Qwen-VL-Max限时免费向用户开放。用户可以在通义千问官网、通义千问APP直接体验Max版本模型的能力,也可以通过阿里云灵积平台(DashScope)调用模型API。

gptgpt-4大模型vqadoc提取信息视觉定位视觉推理研究成果文本识别appapi中英文文档分析gemini多模态文本处理url
  • 本文作者:WAP站长网
  • 本文链接: https://wapzz.net/post-6667.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.7W+
9
1
2
WAP站长官方

整理一下最近了解到的AIGC工具

上一篇

思科调查:超25%公司在内部实施了生成式AI禁令

下一篇
  • 复制图片
按住ctrl可打开默认菜单