全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一

全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一

    正在检查是否收录...

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源 MoE 模型来了。

DeepSeek-V2 是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由 236B 个参数组成,其中 21B 个参数用于激活每个标记。

与 DeepSeek 67B 相比,DeepSeek-V2 性能更强,同时节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,最大生成吞吐量提高到 5.76 倍。

DeepSeek 是一家探索通用人工智能(AGI)本质的公司,并致力于将研究、工程和商业三者融为一体。

DeepSeek-V2 的综合能力

在目前大模型主流榜单中,DeepSeek-V2 均表现出色:

  • 中文综合能力(AlignBench)开源模型中最强:与 GPT-4-Turbo,文心 4.0 等闭源模型在评测中处于同一梯队
  • 英文综合能力(MT-Bench)处于第一梯队:英文综合能力(MT-Bench)与最强的开源模型 LLaMA3-70B 处于同一梯队,超过最强 MoE 开源模型 Mixtral 8x22B
  • 知识、数学、推理、编程等榜单结果位居前列
  • 支持 128K 上下文窗口

全新的模型结构

当 AI 的潜力被不断挖掘,我们不禁要问:什么是推动智能进步的关键?

DeepSeek-V2 给出了答案 —— 创新架构与成本效益的完美结合

DeepSeek-V2,以 236B 的总参数和 21B 激活,大致达到了 70B~110B Dense 模型的能力,同时显存消耗仅为同级别模型的 1/5~1/100。在8卡H800机器上,每秒可处理超过 10 万tokens 的输入,输出超过每秒 5 万 tokens。这不仅是技术上的飞跃,更是成本控制的革命。

在 AI 技术飞速发展的今天,DeepSeek-V2 的出现,不仅代表了技术的突破,更预示着智能应用的普及化。它将 AI 的门槛降低,让更多企业和个人能够享受到高效智能服务。

中文能力 VS 价格

在中文能力方面,DeepSeek-V2 在 AlignBench 排名中全球领先,同时提供极具竞争力的 API 价格。

模型和论文双开源

DeepSeek-V2,不只是一款模型,它是通往更智能世界的钥匙。它以更低的成本,更高的性能,开启了 AI 应用的新篇章。DeepSeek-V2 的开源,是对这一信念的最好证明,它将激发更多人的创新精神,共同推动人类智能的未来。

  • 模型权重:https://huggingface.co/deepseek-ai
  • 开源地址:https://github.com/deepseek-ai/DeepSeek-V2

在 AI 不断进化的今天,你认为 DeepSeek-V2 将如何改变我们的世界?让我们拭目以待,感兴趣的话,可以访问 

chat.deepseek.com

 亲自体验 DeepSeek-V2 带来的技术变革。

参考资料

[1]

DeepSeek-V2: https://www.deepseek.com/zh

开源模型人工智能token参考资料智能模型huggingfacegitllamachat上下文大模型ai 应用智能应用ai 技术githubapi语言模型gptgpt-4成本控制
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-13600.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

联发科天玑 9300+ 处理器发布 支持Llama27B端侧大模型运行

上一篇

云原生✖️ AI 时代的微服务架构最佳实践—— CloudWeGo 技术沙龙·上海站报名开启

下一篇
  • 复制图片
按住ctrl可打开默认菜单