华科大发布AI大模型猴子:部分超越GPT-4

华科大发布AI大模型猴子:部分超越GPT-4

    正在检查是否收录...

快科技12月12日消息,华中科技大学官方发文称,该校软件学院一团队发布了多模态大模型Monkey”。

该模型擅长图像描述和视觉问答,能够实现对世界的观察”,对图片进行深入问答交流和精确描述。

官方介绍称,在18个数据集上的实验中,华科大Monkey模型表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的LLAVA、谷歌的PALM-E、阿里的Mplug-owl等。

此外,Monkey在文本密集的问答任务中显示出显著的优势,甚至在某些样本上超越了业界公认的领先者GPT-4V。

Monkey的一个显著特点是其出色的看图说话”能力。在详细描述任务中,Monkey展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。

另一亮点是能够处理分辨率高达1344 x 896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。

据悉,目前业内能处理的图片最大分辨率为448448像素。

值得一提的是,该团队已将Monkey代码在全球最大的代码托管服务平台GitHub上开源。

大模型多模态图像描述视觉问答gptgpt-4数据集github托管服务gitpalmurl
  • 本文作者:WAP站长网
  • 本文链接: https://wapzz.net/post-3156.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.8W+
9
1
2
WAP站长官方

DreaMoving在哪里可以使用 AI视频背景修改工具

上一篇

Amazon CodeWhisperer 正式可用, 并面向个人开发者免费开放

下一篇
  • 复制图片
按住ctrl可打开默认菜单