Meta两个豪华AI集群曝光:每个配备2.4万块英伟达H100,价值几十亿

Meta两个豪华AI集群曝光:每个配备2.4万块英伟达H100,价值几十亿

    正在检查是否收录...

3月13日消息,美国时间周二,Facebook母公司Meta公布了两个数据中心规模新集群的技术细节,它们各自拥有超过2.4万个GPU,并在硬件、网络、存储、设计、性能和软件等方面上,专为支持大型语言模型如Llama 3进行训练而深度优化。

这两个新集群基于Meta先前研究超级集群(RSC)的成功。RSC自2022年启用以来,已展现出强大的计算力。

在硬件配置方面,每个集群都配备了24576个英伟达Tensor Core H100 GPU(每个数万美元),与之前使用的16000个英伟达A100 GPU相比有了明显提升,这将极大地促进自然语言处理、语音识别和图像生成等人工智能研究和开发工作。

Meta表示,这种升级不仅在数量上有所增加,其性能上的跃进也将支持更大、更复杂的模型,为生成式人工智能产品的开发铺平道路。

Meta计划在2024年底之前,将其人工智能基础设施扩大到高达35万个H100 GPU。目标是拥有相当于近60万个H100 GPU的算力。

图片来源:Meta官方博客

虽然两个新集群的GPU数量相同,但它们在网络基础设施方面各有差异,均支持400 Gbps端点之间的互联。其中一个集群采用了基于Arista 7800交换机配合Wedge400和Minipack2 OCP机架交换机的远程直接内存访问(RDMA)和融合以太网(RoCE)网络解决方案,而另一个则应用了英伟达Quantum2 InfiniBand网络架构。

值得一提的是,两个集群均基于Meta自研的开放GPU硬件平台Grand Teton构建,这是公司为支撑大型AI工作负载而开发的GPU基础硬件平台。作为Zion-EX平台的后续产品,Grand Teton在主机到GPU的带宽、计算及数据网络带宽、以及功率包络等方面都实现了显著的增强。

此外,这些集群充分利用了Meta专为Grand Teton等方案设计的Open Rack电源和机架架构,提高了数据中心的灵活性。

Meta的Open Rack v3硬件设计引入了一个灵活的机架配置方案。与传统的固定母线设计相比,它允许在机架中的任意位置安装电源架,从而使机架配置更加灵活。

在建设这些新集群时,Meta特别关注了每台服务器吞吐量、机架数量减少及能源效率之间的平衡。通过对机架内服务器数量的定制化设计,Meta确保了这些集群在提供高性能的同时,也达到了能源的高效利用。

在存储技术上,这些集群运用了Linux Filesystem中的Userspace API,并得到了Meta自家Tectonic分布式存储方案的加持。与此同时,Meta还与Hammerspace合作,一道开发了并行网络文件系统(NFS)。

两个集群均基于配备了最新高容量E1.S SSD的YV3 Sierra Point服务器平台。为了优化网络利用率,Meta进行了网络拓扑和路由的调整,并部署了英伟达的集体通信库(NCCL)。NCCL是一套针对英伟达GPU和网络进行优化的标准通信例程库。

Meta还在积极推进其PyTorch基础AI框架的发展,以应对数十万GPU的训练需求。Meta的技术项目经理凯文·李(Kevin Lee)、生产网络工程师阿迪·甘吉迪(Adi Gangidi)以及生产工程总监马修·奥尔德姆(Mathew Oldham)在最新博客中共同表达了公司的技术愿景和战略。他们强调,Meta将致力于人工智能软件和硬件的开放式创新,启动人工智能联盟,建立一个开放的生态系统,“为人工智能开发带来透明度、审查和信任,并带来每个人都能从中受益的创新,这些创新以安全和责任为首要考虑因素”。

这篇博文继续强调:“面对未来,我们意识到昨天和今天有效的方法可能无法满足明天的需求。因此,Meta将不断评估和改进其基础设施的各个方面,从物理和虚拟层到软件层等。我们的目标是创建一个既灵活又可靠的系统,以支撑快速发展中的新模型和研究工作。”

gpu人工智能服务器基础设施数据中心cto计算力智能基础设施ammlinux定制化设计facebookstem2024分布式智能软件llama透明度gan大型语言模型
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-10440.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

荣耀:AI领域研发投入已达百亿元 完成专利超2000项

上一篇

基于Discuz平台的指定网站信息采集策略与实践

下一篇
  • 复制图片
按住ctrl可打开默认菜单