芯片制造商英伟达周一宣布,其Spectrum-X网络技术助力初创公司xAI的Colossus超级计算机实现扩展,该超级计算机现被誉为全球最大的AI训练集群。

据悉,Colossus位于田纳西州孟菲斯,是xAI第三代Grok大型语言模型的训练基地。这些模型专为X Premium订阅用户提供的聊天机器人功能而开发。

英伟达周一在一份声明中表示Colossus在短短122天内建成,安装后仅19天便开始训练首批模型。科技亿万富翁埃隆·马斯克旗下的初创公司xAI计划将该系统的容量翻倍至20万个GPU。

Colossus的核心是一个巨大的GPU互联系统,每个GPU都专门用于处理大型数据集。在训练Grok模型时,它们需要分析海量的文本、图像和数据,以提高响应质量。

马斯克宣称Colossus是世界上最强大的AI训练集群,它使用统一的远程直接内存访问(RDMA)网络连接了10万个英伟达Hopper GPU。英伟达Hopper GPU通过跨多个GPU分配工作量并并行处理,从而应对复杂任务。

这种架构允许数据在节点之间直接传输,绕过了操作系统,确保了低延迟以及大规模AI训练任务的最佳吞吐量。

传统以太网网络往往受到拥堵和丢包问题的困扰,吞吐量限制在60%左右,而Spectrum-X则能实现95%的吞吐量,且不会降低延迟。

Spectrum-X技术使得大量GPU之间能够更顺畅地通信,因为传统网络在处理过多数据时可能会陷入困境。

这项技术使得Grok能够更快、更准确地接受训练,这对于构建能够有效响应人类交互的AI模型至关重要。

周一的公告对英伟达的股价影响甚微,股价略有下跌。截至周一,该公司股价为141美元,市值达到3.45万亿美元。

编辑:Sebastian Sinclair

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.