Vectara排行榜:OpenAI的GPT-4在文档摘要中幻觉率最低

Vectara排行榜:OpenAI的GPT-4在文档摘要中幻觉率最低

    正在检查是否收录...
一言准备中...

在一项由Vectara进行的开源模型评估中,OpenAI的GPT-4在文档摘要中表现卓越,凭借其出色的97%准确率和令人瞩目的3%的幻觉率,成为幻觉率最低的大型语言模型。

Vectara在GitHub上发布了一个排行榜,评估了一些大型语言模型在其“Hallucination Evaluation Model”上的表现,该模型衡量了语言模型在摘要文档时引入幻觉的频率。

排名第一的是GPT-4和GPT-4Turbo,它们分别以97%的准确率和3%的幻觉率脱颖而出。另一款OpenAI模型,GPT-3.5Turbo,排名第二,其准确率为96.5%,幻觉率为3.5%。

在非OpenAI模型中,最高得分的是Meta的Llama2,具有70亿参数,准确率达到94.9%,幻觉率仅为5.1%。

然而,谷歌的模型表现相对较差,Google Palm2的准确率为87.9%,幻觉率为12.1%。Palm的聊天优化版本表现更差,准确率仅为72.8%,幻觉率则高达27.2%。

在摘要长度方面,Google Palm2Chat生成的平均摘要字数最高,达到惊人的221个字。相比之下,GPT-4仅生成每个摘要81个字。

Vectara是一家总部位于Palo Alto的公司,他们通过使用开源数据集培训了一个模型,以检测大型语言模型输出中的幻觉。该公司通过其公共API向每个模型提供了1000个短文档,并要求它们仅使用文档中呈现的事实进行摘要。

在这1000个文档中,只有831个被每个模型摘要,其余的文档由于内容限制被至少一个模型拒绝。Vectara随后计算了每个模型的总体准确率和幻觉率。

Vectara的“Hallucination Evaluation Model”是开源的,意味着企业可以使用它来评估其大型语言模型在检索增强生成(RAG)系统中的可信度。用户可以通过Hugging Face访问该模型,并根据自己的需求进行调整。

项目网址:https://huggingface.co/vectara/hallucination_evaluation_model

Shane Connelly,Vectara的产品负责人在博客中写道:“幻觉的风险阻碍了许多企业采用生成式AI。我们的目标是通过量化分析为企业提供他们需要的信息,使他们能够通过有信心地启用生成系统。”

准确率语言模型gptgpt-4大型语言模型openaipalmai模型googlehuggingface可信度生成系统llama2检索增强生成检索增强hugging face量化分析gpt-3.5排行榜chatraggitllamaapi开源模型模型评估生成式文档摘要githubgpt-3数据集生成式aiurl
  • 本文作者:WAP站长网
  • 本文链接: https://wapzz.net/post-1231.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.7W+
9
1
2
WAP站长官方

stable diffusion实践操作-LyCORIS

上一篇

人工智能会取代专业技术人员吗?

下一篇
  • 复制图片
按住ctrl可打开默认菜单