NVIDIARESEARCH为多个多芯片GPU引擎设计了一个课程

NVIDIARESEARCH为多个多芯片GPU引擎设计了一个课程

有两种类型的封装代表了计算机的未来,并且都在某些领域有效:晶圆级集成和多芯片模块封装。虽然我们喜欢这样的想法,即您可以将包含在一个集群中的所有电路都放在一个硅晶片上 – 您可能能够将一两个机架或两个当今的异构 HPC 和 AI 节点设备缩减为一个闪亮的磁盘– 我们认为,在很多情况下,系统架构师更有可能需要比晶圆级集成所允许的更高的组件灵活性。

顺便说一下,没有芯片设计师喜欢这两种选择中的任何一种。如果芯片设计师有他们的方式。Dennard 缩放仍然可以提高时钟速度,我们将拥有 50 GHz 芯片,而摩尔定律将允许晶体管成本每两年减少一半,因此芯片尺寸将保持不变,性能将保持不变上升和上升。但是丹纳德缩放在 2000 年代停止了,而摩尔定律,至少我们知道,使用助行器四处走动。

因此,每家制造用于数据中心的计算引擎的公司都面临着这两种方法之间的选择。晶圆级集成迫使提前确定组件选择,除非它们包括可延展的 FPGA 电路(这也许不是一个坏主意),否则它们无法改变。并且它必须能够适应电路 SRAM 的工作负载,或者面临同样的问题,即从晶圆上取下电线以与慢得多的存储器通信。在某些时候,必须集成晶圆级计算机,并且会遇到相同的互连问题,但由于晶圆本身的密度而变得更加复杂。

因为多芯片模块封装,或 MCM,我们经常说它是一种小芯片架构,已经存在了几十年——IBM 在 System/3081 大型机中构建了多芯片模块35 年前,其中有 133 个芯片,并将整个 IBM System/370 大型机的数据处理能力打包在一个模块中,而这与几十年前一样——我们认为这将是主流计算的前进方向。(也就是说,我们认为在大规模分布式互联网中让每个家庭由几个晶圆级服务器节点供暖是一个非常有趣的想法,显然每个快餐店也可以将它们用作烤架。)IBM、AMD、英特尔、和其他一直在数据中心提供计算引擎的人一直在构建 MCM CPU 二十年,我们可以看到这已经演变成一个更加优雅的小芯片架构,其中芯片的各个组件被打破并以有趣的方式组合。在许多设计中,核心复合体正在脱离内存和外围控制器。

随着其数据中心 GPU 面临代工合作伙伴台积电和三星的光罩限制,英伟达的研究人员一直在研究 MCM 封装以绘制从单片设计开始的路线也就不足为奇了,到目前为止,是其 GPU 计算引擎的标志,从开普勒到安培系列,其历史可追溯至 2008 年至今。该研究在一篇论文中得到了强调,该论文将由 ACM 于 3 月在其《架构和代码优化交易》期刊上发表,但于 2021 年 12 月在线发布,它指出了英伟达正在努力解决的一些问题,因为它将我们都希望在 3 月份的 GPU 技术大会上看到的A100 NextGPU 引擎(有时被称为HopperGH100,但英伟达尚未证实这一点)以及将于 2024 年推出的A100 Next NextGPU 引擎。

正如研究人员所表明的那样,问题不仅在于封装选项,还在于驱动 Nvidia 数据中心业务的非常不同的 HPC 模拟和建模以及 AI 推理和训练工作负载的计算和内存需求的差异。

甚至在本出版物成立之前,我们就已经注意到一个令人高兴的巧合,即 Nvidia 在 2000 年代后期帮助构建的 GPU 加速系统正是使机器学习算法最终起作用的那种机器,并且从2010 年代初。一个旨在进行大规模模拟的系统在大规模机器学习训练方面也表现出色,这是一个令人愉快的巧合,它不仅推动了两个市场的发展,还推动了这些工作负载的融合,如今注入 AI 的 HPC 绝对正常。但即使在两年前,我们也开始怀疑 HPC 和 AI 之间的这种和谐融合是否能够持续下去,并担心 AI 的硬件需求会将系统架构拉向不同的方向。从 Nvidia 研究人员的角度来看,情况确实如此。

顺便说一下,这些 Nvidia 研究人员是重量级人物,其中包括: 架构研究副总裁 Steve Keckler;David Nellas,系统架构研究组组长;Evgeny Bolotin,高级系统架构师;和计算机架构师 Niladrish Chatterjee。除其他外,这种智囊团创造了2016 年推出的 GPU 和 CPU的 NVLink 内存互连,以及2018 年推出的 NVSwitch 结构,允许 GPU 内存的紧密耦合,以及 Echelon exascale 项目和之前的 MCM GPU 工作。Nvidia Research 的负责人 Bill Dally告诉我们,NVSwitch 商业化比预期早了几年,因为 AI 工作负载增长如此之快,这是必要的。早在 2017 年,他们就已经将 MCM 作为一般概念进行了先前的工作,表明使用四个较小的 GPU 小芯片的 MCM 实现可以比最大的可构建单片 GPU 提供 45.5% 的魅力。但在最近的这篇论文中,他们不太关心封装,而是关心 HPC 和 AI 工作负载之间的漂移,以及他们在近期和遥远的将来需要的 GPU 计算引擎类型。

这可能是未来 Nvidia GPU 代号如此混乱的原因之一。我们可能听说过针对 HPC 或 AI 工作负载调整的 MCM 变体。

虽然英伟达在 MCM 上做了很多工作,但由于留在一块硅上的所有明显优势,它一直等到最后一刻才做出跳跃。由于 AMD 和 Intel 都在他们当前的数据中心 GPU 上使用小芯片架构——同样出于显而易见的原因,受成本、光罩限制和摩尔定律放缓的推动——我们认为至少用不了多久,至少有一些 GPU基于 MCM 设计。数据中心 GPU 引擎是显而易见的起点,正如 AMD 展示的AldebaranGPU 以及英特尔今年将展示的Ponte VecchioGPU。

Nvidia 对 MCM GPU 的最新尝试被称为 Composable On Package GPU,或简称为 COPA,除了这个故事之外,我们永远不会再使用这个缩写,除非某些东西,也许是 NVSwitch 3.0,被称为 CABANA。而且这项研究并不是真正的一种封装方法,而是一种针对特定于 HPC 和 AI 工作负载的特定领域 GPU 的不同封装方法的模拟。这与其说是未来 Nvidia 数据中心 GPU 的蓝图,不如说是对用于构建它们的工具包的讨论,并肯定 HPC-AI 融合在插槽级别会变得不协调,但插槽内的许多组件仍将由面向 HPC 和 AI 工作负载的未来 GPU 共享。

Nvidia 看到的基本划分是 HPC 工作负载,它需要大量 FP64 和 FP32 数学能力以及适度的内存和内存带宽,以及 AI 工作负载,需要大量低精度数学以及一些高精度浮点数等等重要的是,比 HPC 工作负载更多的内存容量和内存带宽。(我们发现这很难相信,因为许多 HPC 中心可能会这样做。)英伟达对其假设的 GPU-N 设备所做的模拟工作并没有改变设备中计算元素的类型和数量——尽管这肯定会发生在英伟达今年和未来推出的真正 GPU 引擎——而是使用小芯片设计改变了这些计算引擎的包实现缓存和主内存的方式。

NVIDIARESEARCH为多个多芯片GPU引擎设计了一个课程

我们假设 GPU-N 是在 5 纳米工艺中实现的,代表了现有 GA100 GPU 电机的缩小。(在论文的任何地方都没有说,这是一个合理的猜测。)假设比率相同,这个 GPU-N 将只有 12 teraflops 的 FP64 性能——远低于英特尔的 45 teraflops为Ponte Vecchio GPU和 47.9 teraflops 的投影AMD 为Aldebaran GPU及其各自的矢量引擎提供。并不是说这篇论文展示了这一点,而是这些 GPU-N 设备中有四个实现了 48 teraflops 的 FP64,现在所有三个供应商都在进行游戏。我们并不是说 Hopper 或 Lovelace 或任何其他未来的 Nvidia GPU 可以做到这一点,但 Nvidia 已经证明它可以做到。

无论如何,根据针对 AI 工作负载的配置,GPU-N 设备上有 60 MB 的 L2 缓存,可以在 FP16 下产生非常可观的 779 teraflops,并且 HBM 带宽为 2.7 TB/秒。AI引擎和HPC引擎看起来很受人尊敬,对吧?

没那么快。英伟达表示,根据其在 GPU-N 上的模拟,没有足够的内存带宽会影响 AI 训练和推理工作负载的执行时间,并且基于一系列 HPC 基准测试的任何带宽增加都将在很大程度上未被充分利用在同时针对 HPC 和 AI 工作负载的融合 GPU 设备上,例如 Nvidia GP100、GV100 和 GA100 GPU。如果将 GPU-N 设备的带宽减少 25%,HPC 作业只会减慢 4%,如果将其减半——低于 A100 加速器提供的 1.55 TB/秒——HPC 应用程序只会减慢下降了 14%。

为了提高 HBM 内存的带宽利用率并减轻其压力,英伟达模拟了添加更大 L2 缓存的效果,大约 1 GB 到 2 GB 的缓存最适合 AI 工作负载。唯一的问题是你不能在 GPU 芯片上放置那么多 L2 缓存。那么 GPU 供应商该怎么做呢?将内存控制器和 L3 缓存小芯片添加到 GPU 包中,并根据 HPC 和 AI 工作负载的要求混合和匹配容量。像这样:

NVIDIARESEARCH为多个多芯片GPU引擎设计了一个课程

有很多不同的方法可以通过分解可能存在于一个巨大的单片芯片上的功能然后将它们粘合在一起来创建 GPU 小芯片组件,并且 GPU-N 模拟采用了多种分解方法,如下所示:

NVIDIARESEARCH为多个多芯片GPU引擎设计了一个课程

这种架构有一个定制的内存系统模块或 MSM,用于特定的工作负载,无论是 HPC 还是 AI,而且很可能会有 AI 训练和 AI 推理的变体,具体取决于需要。像 P100、V100 和 A100 这样的单片 GPU 显示在上图的左侧。在一种方法中,将流式多处理器 (SM) 连接在一起的片上网络保留在计算小芯片上,并且一些快速 I/O 管道从 GPU NOC 连接到包含 L2 缓存和内存控制器的小芯片。输出到 HBM 内存。在中间方法中,GPU NOC 在缓存和内存控制器小芯片上移动,SM 上的 L1 缓存直接链接到外部 GPU NOC。在第三个选项中,GPU NOC 和 L2 缓存留在计算小芯片上,L2 缓存链接到 MSM 中的外部 L3 缓存和内存控制器,后者又链接到 HBM 内存。Nvidia 考虑了这些选项,并在 GPU-N 模拟的右侧选择了选项三,主要是因为将 GPU 连接到 NOC 需要数十 TB/秒的带宽,并且需要大量能量。

现在我们已经找到了分解组件的方法,我们必须找到一种方法将它们重新拼接在一起,并且有许多 2.5D 和 3D 选项,Nvidia 概述了这些选项:

NVIDIARESEARCH为多个多芯片GPU引擎设计了一个课程

同样,左侧是今天 Nvidia GPU 引擎的构造方式,GPU 芯片上的内存控制器以及 GPU I/O 和电源以及内存控制器通过中介层连接到 HBM。英伟达用 GPU-N 设备模拟的第一个选项是在 GPU 和中介层之间放置一个 L3 缓存,并将 HBM​​ 内存控制器放在同一个小芯片上,在 GPU 小芯片和内插器之间使用短的 3D 超高带宽链接。 MSM 上的 L3 缓存和内存控制器。具有 3D 封装的芯片边缘限制了您可以为芯片配置的 HBM 内存量。

使用中间封装选项,一对 MSM 位于 GPU 计算的左侧和右侧,并通过四条链路链接到中介层上,链接到 L3 缓存和 MSM 上的内存控制器,后者又链接到HBM 内存。这实质上是未来的 HPC GPU 电机。对于第三个选项,MSM 加载了 L3 缓存,并使用 2.5D 封装将组件链接在一起。我们认为,这将是未来 Nvidia AI GPU 电机的样子。当然,两者都在概念上。关键是,使用单独的 MSM,您可以在 GPU 内核和 MSM 之间放置快速管道,以保持它们接收数据,但也可以增加边缘长度以添加更多 HBM 内存,如选项三所示。对于右边的第三个选项,英伟达表示它可以在其 MSM 上创建 10 个 HBM 站点,如果使用一个更胖的站点,它最多可以创建 14 个 HBM 站点。那是更多的内存容量和带宽。多少取决于 HBM 的容量和速度,但对于未来 GPU 的 AI 版本,它可能是我们在 A100 加速器上看到的 2 到 3 倍——也许更高。GPU-N 模拟有 100 GB,考虑到经过改进的 A100 已经有 80 GB,这并不令人印象深刻。Nvidia 模拟了具有 1.9 GB 三级缓存和 167 GB HBM 内存、总带宽为 4.5 TB/秒的 GPU-N 以及具有 233 GB HBM 内存和 6.3 TB/秒带宽的 GPU-N。运行一套 MLPerf 训练和推理测试的最佳设计是 960 MB L3 缓存和 167 GB HBM 内存,带宽为 4.5 TB/秒。通过添加 L3 缓存并提高 HBM 内存的速度和容量,来自 GPU-N 模拟的一个有趣的花絮。在 3D 封装场景中,通过 UHB 链路提供 14.7 TB/秒的带宽只需要不到 4% 的硅,并且消耗不到 2 瓦;2.5D UHB 链路占用 6% 的硅并消耗 9 瓦。

所有这些研究都强烈地表明了 Nvidia 的 AI 优化未来 GPU 会是什么样子。需要提供最佳性价比的 HPC 变体将有一个、两个甚至四个 GPU 小芯片和链接到 HBM 内存的 MSM,而 AI 变体将有一个、两个甚至四个 GPU 小芯片,其中 MSM 具有大量 L3 缓存和更多 HBM 内存和带宽。并且有一种外部可能性,即未来会有两种 GPU 小芯片——一种具有大量针对 HPC 的 FP64 和 FP32 矢量计算,另一种具有大量针对 AI 的 Tensor Core 矩阵计算。

如果这一切都成真,我们对这个答案并不完全满意。随着 HPC 和 AI 硬件的不同,当工作负载混合使用 HPC 和 AI 软件时会发生什么?现在,在不得不提前多年对工作负载进行有根据的猜测之后,我们又重新购买多种类型的计算引擎并锁定它们之间的比率。GA100 GPU 的重点在于它是一种通用设备,它可以做任何事情,从虚拟桌面到 AI 推理、HPC 模拟、AI 训练、数据分析加速到可视化。

但这就是摩尔定律放缓时会发生的情况。你必须共同设计一切。硬件人员必须了解并听取软件人员的意见。没有其他办法。一切都变成了体积较小的部分,因此变得更加昂贵,但每个设备都做得更好,因此价格/性能不断提高。

来源:内容编译自thenextplatform,侵删!

主题测试文章,只做测试使用。发布者:觉鸟网,转转请注明出处:https://www.jueniao.cn/n/31069.html

(1)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022年6月29日 01:26
下一篇 2022年7月5日 13:31

相关推荐

  • 世界领先零部件制造商法雷奥持续投资武汉在中国车谷续建电动车车灯制造基地

    2月8日,法雷奥照明武汉第二工厂启动生产,首只车灯配件下线。法雷奥在武汉经开区扎根已有27年,这是其三次扩建武汉工厂、建设研发中心之后,再一次在中国车谷扩大投资。 法雷奥武汉第二工厂将为全球著名电动汽车品牌生产车灯 法雷奥市光(中国)车灯有限公司总经理马建剑表示,武汉经开区已是法雷奥服务全球汽车产业的重要支柱区域,中国车谷将成为法雷奥照明系统在中国市场的电动…

    2022年6月13日
    1100
  • 为什么冰箱可以如此奢华,叫人爱不释手?亲测COLMOTURING冰箱

    一台售价4万元的冰箱摆在家中,究竟是怎样一种奢华的体验? 2021年10月,我们将COLMO TURING套系·营养空间站带入《电器》消费体验中心,直面这台传说中的奢华级高端冰箱。在这里,我们就称它为TURING冰箱吧! 印象里,TURING是现代计算机的鼻祖,也是电影中,卷福帅气又执着的经典形象。那么这台被COLMO命名为套系·营养空间站的超高端冰箱,是不…

    2022年6月15日
    1800
  • 酷睿i7-1260P对比评测:低功耗处理器性能王者

    英特尔P系列处理器是12代酷睿家族全新引入的一个系列,其默认功耗为28W,比45W的标压H系列功耗低,比15W的低功耗U系列性能更强,主要应用于轻薄型笔记本电脑当中,可以提供更加出色的性能和优于H45平台的续航能力。 此前,我们已经针对该系列的酷睿i5-1240P处理器进行测试,并且与低功耗U系列处理器进行了对比(详见:《准标压还是低功耗?实测告诉你i5-1…

    2022年6月15日
    1200
  • 两千元一天租的豪车竟然无证?

    本报讯 (记者 林钦圣 通讯员 郭逸炊 傅秋萍)保时捷卡宴、帕拉梅拉轿跑、埃尔法商务车……这些豪车售价不菲,但假如只是租赁体验,成本就大幅度降低,也因此受到不少市民的追捧。市交通执法部门提醒,市民在租车时需要注意汽车租赁公司是否取得租赁许可,以及车辆是否配发租赁证。 近日,市交通执法支队直属大队执法人员巡查至高崎机场T4航站楼停车场时,发现一部保时捷卡宴停在…

    智能科技 2022年6月25日
    1100
  • 网传MSRA停招某几所高校学生,国防七子及北邮表示「被锤惯了」

    作者 | 钱磊 编辑 | 陈彩娴 此前有消息称,MSRA——即微软亚洲研究院,停止招收国防七子及北邮学生。 国防七子,指的是北京理工大学,北京航空航天大学,南京理工大学,南京航空航天大学,哈尔滨工业大学,哈尔滨工程大学(原哈军工)以及西北工业大学。 北邮,即北京邮电大学。 短短一句话信息量极大,说白了,以上几所高校学生今后将难以进入MSRA实习。 紧接着有网…

    2022年6月17日
    1300

发表评论

您的电子邮箱地址不会被公开。

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信