Mistral 7B 比Llama 2更好的开源大模型 (一)

Mistral 7B 比Llama 2更好的开源大模型 (一)

    正在检查是否收录...

Mistral 7B 简介

Mistral 7B

Mistral 7B 是一个 7.3B 参数模型:

在所有基准测试中优于 Llama 2 13B 在许多基准测试中优于 Llama 1 34B 接近 CodeLlama 7B 的代码性能,同时保持擅长英语任务 使用分组查询注意力 (GQA) 加快推理速度 使用滑动窗口注意力 (SWA) 以更低的成本处理更长的序列

性能细节

将 Mistral 7B 与 Llama 2 系列进行比较,运行所有模型评估,以便进行公平比较。

Mistral 7B 和不同 Llama 模型在各种基准测试中的性能。Mistral 7B 在所有指标上都明显优于 Llama 2 13B,与 Llama 34B 相当,在代码和推理基准方面也非常出色。

基准测试按其主题分类:

常识推理: 0-shot average of Hellaswag, Winogrande, PIQA, SIQA, OpenbookQA, ARC-Easy, ARC-Challenge, and CommonsenseQA. 世界知识: 5-shot average of NaturalQuestions and TriviaQA. 阅读理解: 0-shot average of BoolQ and QuAC. 数学 : Average of 8-shot GSM8K with maj@8 and 4-shot MATH with maj@4

llamaragllama 2注意力模型评估阅读理解codellamammocode
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-12191.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果

上一篇

我的领导马斯克:痛恨开会,不要非技术中层,推崇裁员

下一篇
  • 复制图片
按住ctrl可打开默认菜单