谷歌AI芯片TPU v5p在训练LLM方面比其前一代快2.8倍

谷歌AI芯片TPU v5p在训练LLM方面比其前一代快2.8倍

    正在检查是否收录...

谷歌正迅速成为其最好的朋友英伟达的强大对手——其超级计算机所使用的TPU v5p人工智能芯片比以往任何时候都更快、更大、更宽,甚至超过了强大的H100。谷歌在最近推出其Gemini人工智能模型的同时,也发布了其最新版本的旗舰张量处理单元(TPU),用于人工智能的训练和推理,这似乎是一种挑战英伟达自己的市场领先的图形处理器(GPU)的尝试。

图源备注:图片由AI生成,图片授权服务商Midjourney

TPU v5p是谷歌最强大的定制设计的人工智能加速器,已经被部署到了该公司的“人工智能超级计算机”上。这是一种专门为运行人工智能应用而构建的超级计算架构,而不是通常运行科学工作负载的超级计算机,因为TPU不适合这些工作。

其最新版本的TPU每个单元(组成系统的部分)有8, 960 个芯片,相比之下,v4 只有4, 096 个,而且在每个单元可用的浮点运算次数(FLOPs)方面,它的可扩展性是v4 的四倍。这些新的单元提供了4,800Gbps的吞吐量。新的单元还拥有95GB的高带宽内存(HBM),而TPU v4 只有32GB的HBM RAM。

不同于英伟达,它将其GPU出售给其他公司,谷歌的定制TPU仍然只在其自己的产品和服务中使用。谷歌的TPU长期以来一直用于为其服务提供动力,包括Gmail、YouTube和Android,而最新版本也被用于训练Gemini。

谷歌的v5p TPU在训练大型语言模型方面比TPU v4 快2. 8 倍,并且提供2. 1 倍的性价比。虽然今年早些时候发布的中间版本TPU v5e在三者中提供了最高的性价比,但它只比TPU v4 快1. 9 倍,这使得TPU v5p成为最强大的。

它甚至强大到足以与英伟达广受欢迎的H100 GPU相媲美,这是市场上最适合人工智能工作负载的显卡之一。根据该公司自己的数据,这个组件在训练工作负载方面比英伟达的A100 GPU快四倍。

与此同时,谷歌的TPU v4 据估计比A100 快1. 2 到1. 7 倍,这是根据它在四月份发布的研究结果。粗略的计算表明,TPU v5p大约比A100 快3. 4 到4. 8 倍,这使得它与H100 相当或者更优秀,尽管在得出任何结论之前,需要更详细的基准测试。

tpu人工智能gpugemini智能模型人工智能应用可扩展roi定制设计midjourney可扩展性智能应用gmail大型语言模型ai生成语言模型youtubeurl
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-6851.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

最新国内可用GPT4、Midjourney绘画、DALL-E3文生图模型教程

上一篇

检测路在何方?YOLOv8终极指南

下一篇
  • 复制图片
按住ctrl可打开默认菜单