英伟达放大招！算力杀器来了 CPU已落伍？

中国基金报| 2023-05-30 05:55:06

堪称“算力之王”的近万亿美元巨头英伟达，又抛出“大杀器”。

5月29日，英伟达CEO黄仁勋在COMPUTEX大会上抛出多个重磅信息。其中最为引人瞩目的是，搭载256颗GH200 Grace Hopper超级芯片的新型DGX GH200人工智能超级计算机，堪称“算力杀器”。

据透露，谷歌云、Meta和微软是首批预计将获得DGX GH200访问权的客户，以探索其在生成型AI工作负载方面的能力。值得注意的是，算力的突破，将使得AI应用再次获得巨大提升，AI赛道有望向下一个节点迈进。

(资料图片仅供参考)

按照黄仁勋所言，“我们已到达生成式AI引爆点。从此，全世界的每个角落，都会有计算需求。”

256块GH200芯片组成

黄仁勋在29日的COMPUTEX大会上重大发布新型大内存AI超级计算机——DGX GH200超级计算机。

这款超算由英伟达GH200 Grace Hopper超级芯片和NVLink交换机系统提供支持，旨在为生成型AI语言应用、推荐系统和数据分析工作负载开发新一代巨型模型。

据了解，这款超算专为大规模生成式AI的负载所设计，由256块GH200超级芯片组成，拥有1 exaflop 的AI性能、144TB内存（是英伟达目前DGX A100系统的近500倍）、150英里光纤、2000多个风扇。需要提及的是，之前型号（DGX A100）只有8个GPU。

DGX GH200重达40000磅（约合18143千克），堪比四只成年大象的体重。

黄仁勋表示，“DGX GH200人工智能超级计算机，集成了英伟达最先进的加速计算和网络技术，以拓展人工智能的前沿。” 有海外知名媒体对此评价道，英伟达的新人工智能超级计算机将改变“游戏规则”。

黄仁勋透露，DGX GH200集成的GH200 Grace Hopper超级芯片已进入全面生产，英伟达方面预计DGX GH200将于今年年底投入问世。

不过至于价格方面，英伟达也暂未公布价格。谷歌云、Meta和微软是首批预计将获得DGX GH200访问权的客户，以探索其在生成型AI工作负载方面的能力。

同时，黄仁勋还宣布，英伟达也正在打造基于DGX GH200的大型AI超级计算机NVIDIA Helios，以支持其研究和开发团队的工作。其中采用4个DGX GH200系统、1024颗Grace Hopper超级芯片，每个都将与英伟达Quantum-2 InfiniBand网络连接，带宽高达400Gb/s，将于今年年底上线。

在今年3月21日，英伟达在GTC大会上，曾宣布“AI的iPhone即将到来”，并发布了与多个行业重要客户的合作成果，包括量子计算、计算光刻、数字孪生等，并且推出了新一代的超级计算机NVIDIA DGX AI，集成8个H100 GPU模组，大幅提升了单机算力。不难看出，此次DGX GH200超级计算机发布将进一步推升算力等级。

算力成为AI刚需

自去年年底OpenAI发布ChatGPT以来，生成式人工智能就成为热度居高不下的新趋势。该项技术需要通过超强算力来创建文本、图像、视频等内容。

在这一背景下，算力成为AI的刚需，而芯片巨头英伟达所生产的人工智能芯片对该领域至关重要。

此前，英伟达在AI训练端先后推出了V100、A100、H100三款芯片，以及为了满足美国标准，向中国大陆销售的A100和H100的带宽缩减版产品A800和H800。

其中，V100能加快 AI、高性能计算 (HPC) 和图形技术的发展。其采用NVIDIA Volta架构，并带有16 GB和32GB 两种配置，在单个GPU中即可提供高10个CPU的性能。

A100 采用NVIDIA Ampere架构，是NVIDIA数据中心平台的引擎。A100的性能比上一代产品提升高达20倍，并可划分为七个GPU实例，以根据变化的需求进行动态调整。A100提供40GB/80GB显存两种版本，A100 80GB将GPU显存增加了一倍，并提供超快速的显存带宽（每秒超过2万亿字节 [TB/s]），可处理超大型模型和数据集。

而H100则使用 NVIDIA NVLink Switch系统，可连接多达256个H100来加速百亿级 (Exascale) 工作负载，另外可通过专用的Transformer引擎来处理万亿参数语言模型。与上一代产品相比，H100的综合技术创新可以将大型语言模型的速度提高30倍，从而提供业界领先的对话式AI。

CPU已落伍？

值得注意的是，本次大会上，黄仁勋向传统CPU服务器集群发起“挑战”。他直言，认为在人工智能和加速计算这一未来方向上，GPU服务器有着更为强大的优势。

黄仁勋解释称，传统上电脑或服务器最重要的CPU，这个市场主要玩家包括英特尔和AMD。但随着需要大量计算能力的AI应用出现，GPU将成为主角，英伟达主导了当前全球AI GPU市场。

黄仁勋在演讲上展示的范例，训练一个LLM大语言模型，将需要960个CPU组成的服务器集群，这将耗费大约1000万美元（约合人民币7070万元），并消耗11千兆瓦时的电力。

相比之下，同样以1000万美元的成本去组建GPU服务器集群，将以仅3.2千兆瓦时的电力消耗，训练44个LLM大模型。

如果同样消耗11千兆瓦时的电量，那么GPU服务器集群能够实现150倍的加速，训练150个LLM大模型，且占地面积更小。而当用户仅仅想训练一个LLM大模型时，则只需要一个40万美元左右，消耗0.13千兆瓦时电力的GPU服务器即可。

换言之，相比CPU服务器，GPU服务器能够以4%的成本和1.2%的电力消耗来训练一个LLM，这将带来巨大的成本节省。

根据Trend Force的数据，2022年搭载GP GPU的AI服务器年出货量占全部服务器的比重接近1%，2023年在ChatGPT等人工智能应用加持下，AI服务器出货量有望同比增长8%，2022~2026年出货量CAGR有望达10.8%，以AI服务器用GPU，主要以公司H100、A100、A800（主要出货中国）以及AMD MI250、MI250X系列为主，而英伟达与AMD的占比约8：2。

基于IDC预测2026年全球服务器出货量1877万台、AI服务器的占比逐年提升1%，同时AI服务器中GPU的搭载数量逐年提升0.5个百分点、随着GPU产品迭代，GPU单价逐年提升2000美元，国金证券基于上述基础预测，2026年全球数据中心GPU市场规模有望达224亿美元。

为游戏NPC注入“灵魂”

值得注意的是，游戏一直是备受关注的一大AI应用落地领域，英伟达此次也在大会上宣布，推出面向游戏的定制AI模型代工服务NVIDIA Avatar Cloud Engine（ACE）。

据英伟达方面透露，ACE能赋予非玩家角色（NPC）更智能且不断进化的对话技能，中间件、工具和游戏开发者可使用它来构建和部署定制的语音、对话和动画AI模型。

其中包括：英伟达NeMo，使用专有数据构建、定制和部署语言模型；英伟达Riva，用于自动语音识别和文本转语音实现实时语音对话；英伟达Omniverse Audio2Face，用于即时创建游戏角色表情动画，以匹配任何语音轨道。开发人员可选择集成整个NVIDIA ACE for Games解决方案，也可仅使用需要的组件。

NVIDIA高管John Spitzer表示：“生成式AI有潜力彻底改变玩家与游戏角色互动的方式，并大幅提高游戏的沉浸感。”

相关报道