七大模型全部高考分数出炉:文科能上一本、理科最好是二本

七大模型全部高考分数出炉:文科能上一本、理科最好是二本

    正在检查是否收录...

快科技7月18日消息,日前由上海人工智能实验室旗下司南评测体系OpenCompass,对7个AI大模型进行了高考9个科目的全科目测试,从而能全面评测大模型实力。

此次参与测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室商汤、法国Mistral的开源模型,以及OpenAI的闭源模型GPT-4o。

以参加高考人数最多的河南省分数线作为参考,文科成绩最好的AI模型能够达到一本线,而理科成绩最好的模型则只能上二本。

文科状元由阿里通义千问大模型以546分的成绩夺得,而理科状元则是上海人工智能实验室商汤联合研发的浦语文曲星,得分为468.5分。

OpenAI的GPT-4o在文科上得分531分,排名第三,理科得分为467分,排名第二。

在评测中,AI在文科科目如语文、历史、地理、思想政治等科目上展现了深厚的知识储备和理解能力,但在理科科目中,数理推理能力普遍存在短板。

特别是在面对带图题目时,得分率仅有37.64%,显示出在图片理解和运用能力方面,所有大模型均存在较大提升空间。

阅卷老师指出,尽管大模型在基础知识掌握上表现出色,但在逻辑推理和知识灵活应用方面仍有较大差距。

例如在作答主观题时,大模型常常无法完整理解题干,导致答非所问;在解答数学题时,解题过程机械且逻辑性差。

总结

**7大AI大模型参加高考全科目测试:文科最高分达一本线,理科短板明显**
近日,上海人工智能实验室旗下司南评测体系OpenCompass对7个AI大模型进行了高考全科目测试,涵盖9个科目。参与测试的模型包括阿里巴巴、零一万物、智谱AI、上海人工智能实验室商汤、法国Mistral的开源模型,以及OpenAI的闭源模型GPT-4o。结果显示,文科表现最佳的AI模型能够达到河南省一本线,而理科成绩最好的模型则只能上二本。
在文科方面,阿里通义千问大模型以546分拔得头筹,展现出深厚的文化素养和理解能力。紧随其后的是OpenAI的GPT-4o,以531分位列第三。但在理科方面,AI的数理推理能力明显不足,所有模型在图片理解和运用方面均存在短板,得分率仅为37.64%。上海人工智能实验室商汤联合研发的浦语文曲星以468.5分成为理科状元,紧随其后的是OpenAI的GPT-4o(理科467分)位列次席。
阅卷老师指出,虽然AI在基础知识掌握上表现出色,但在逻辑推理和知识灵活应用方面,与大考生在此年龄段尚有较大差距。如在做主观题时,AI模型常常无法理解题干精髓,导致回答偏离问题;而在解答数学题时,它们的解题思路机械化、逻辑性差,影响了分数表现。此次测试结果充分展现了AI在教育领域应用的潜力与挑战,未来仍需进一步研究和改进。 大模型人工智能gpt-4openaigptai模型智谱ai开源模型逻辑推理解题思路
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-18236.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

中国电信首款自主品牌AI手机终端—麦芒30 5G正式发布,让智能触手可及

上一篇

用AIGC技术打造多样的室内装修风格

下一篇
  • 复制图片
按住ctrl可打开默认菜单