机架和DGX吊舱结合了英伟达的Hopper H100 GPU
评论

这次网络就是计算机

图片来源:英伟达

英伟达没有那么大声地喊,但它的很多工作现在都集中在管道上。

在秋季AI开发者大会(GTC)上,芯片制造商英伟达(Nvidia)仍有可能最终收购处理器设计公司Arm的想法。在春季的活动中,这个计划甚至几乎没有被抛到脑后。

该公司表示,将在英国与英伟达和Arm合作生产剑桥-1计算机,但目前看来,这是一款更大的、非常专注于英伟达的计算机的原型,该计算机计划用作创始人兼首席执行官黄延森(Jensen Huang)所说的“人工智能工厂”的蓝图。

尽管黄在本周(2022年3月21日)的春季GTC主题演讲的重点是安培图形处理单元(GPU)架构的替换,该架构现在被移出,为机器人和其他嵌入式系统提供AI加速,但它处于一个更大战略的顶端。你可以从两方面来解读这个事件。一是强调英伟达是一家电脑公司,现在恰好向其他电脑公司运送芯片,但它更明确地承担了整体机器的设计。或者,你也可以把它看作是对计算机架构的传统方法的一种转变,把Arm的角色看作是一个杂耍:谁需要Arm?真正的操作并不在处理器附近。

即使是以计算先驱Grace Hopper的名字命名的Grace多芯片模块,最吸引人的也不是它的中央处理单元(CPU)和Hopper H100 GPU,可能在一年多后的今天上市。而是它们是如何连接在一起的。与此同时,该公司预计将发货大量Hopper H100 gpu,这些gpu将用于一些Grace包,其中一些将最终用于Eos机器。它将使用与剑桥-1类似的架构,基于DGX吊舱的模块化设计,将多个PCIe卡和网络交换机组装成一个标准的数据中心机架。

黄表示:“我们预计Eos将成为世界上最快的人工智能计算机。”他补充说,它将被用作演示和参考设计,供客户转移到自己的数据中心。“我们现在正在建立Eos,几个月后将上线。

“Hopper也将成为主流系统的游戏规则改变者,”他补充道,并指出了gpu处理互连的不同方式。

对于需要将AI工作分布到多个GPU芯片上的系统,尽管PCI Express的纸面速度令人印象深刻,但在英伟达看来,即使是第五代PCI Express也已成为瓶颈。问题是,在今天的大多数系统中,它实际上只是数据转移到以太网网络的一个临时站点。就像那些使用fpga来执行AI加速的供应商一样,Hopper不再需要使用PCI Express进行转账。相反,gpu直接与以太网通信,而以太网控制器可以直接将数据传输到gpu拥有的内存中,而不需要依赖处理器费力地复制数据。

在随后的一个聚焦于Hopper GPU本身的小组讨论中,首席GPU架构师迈克尔·安德森(Michael Andersch)表示,该公司的工程师意识到,需要“在构建机器的方式上进行根本性转变”。我们不仅需要在GPU内部进行创新,还需要在整个数据中心进行创新。”

这并不是一个新发现。当惠普企业公司为其Moonshot服务器开发概念时,很明显,大量工作需要在如何将不同的CPU、加速器和内存模块相互连接上进行,并且阻止数据在机器上不必要地移动变得越来越重要。结束数据迁移不仅对性能有好处,而且对能源消耗也有好处。斯坦福大学的比尔·达利教授(现任英伟达首席科学家)的研究表明,在当今的架构中,用于典型计算的大部分能量都来自于将其移进或移出内存。

在AI的一些重要应用中,当模型太大而无法容纳一个CPU和GPU组合时,数据需要复制到所有合作的机器上,并在它们之间共享更新:一个全对全的拓扑结构。在另一些情况下,数据是共享的,但会减少,因此在过程结束时,一台机器最终会提出一个更新,然后复制到所有的机器,将其合并到各自的模型中。因为在当今的大多数体系结构中,工作需要在cpu或gpu上完成,这涉及到大量的通信。英伟达计划对Hopper一代和DGX pods做的是将部分处理转移到网络中,这些pods集成了800亿晶体管芯片。

这种网络内处理是2019年收购以色列-美国专业公司Mellanox的结果。该公司为网络交换机开发了硅,其中包括自己的处理器,可以在从一个端口到另一个端口的过程中操纵数据包。Bluefield的设备也采用了这种方法,它和供应商的设备(如Fungible)代表了与cpu和gpu并列的另一类处理器。这是数据处理单元(DPU),尽管网络处理单元可能是一个更明确的术语。

对于全减少算法,网卡和交换机中的dpu运行Mellanox设计的协议,即最初为Infiniband交换机开发的可伸缩分层聚合和减少协议(SHARP)。这使得连接到交换机上的计算机请求网络本身处理它们的一些处理,其中包括那些数据缩减操作。其结果是,大部分数据永远不需要一路到所有其他的GPU卡。运行SHARP的单个引擎收集它所需要的信息,并将答案广播给所有请求结果的机器。类似的多播支持意味着处理器不需要显式地将共享数据发送到列表中的每一台机器,它们只需要让交换机完成这项工作。

大约30年前,太阳微系统公司提出了“网络即计算机”的口号。那时候,它更像是对IBM的一种嘲讽,对于许多企业系统来说,你有一台大计算机服务于一堆愚蠢的终端。Sun的提议基于客户端-服务器模型,这种模型更加强调在远程机器上做尽可能多的工作,尽管它在一定程度上忽略了许多大型机都有自己的I/O处理器,以防止核心CPU不得不做所有的事情。然而,即使在Sun的构想中,网络本身还是相当愚蠢的。这一次,如果不是计算机本身,网络确实是计算机的一个组成部分。

报名参加E&T新闻邮件每天都能收到像这样的好故事。

最近的文章

Baidu
map