NVIDIA 今日(3/23)宣布,为推动下一波人工智能(AI)资料中心的发展,将推出采用 NVIDIA Hopper 架构的新一代加速运算平台,效能较上一代平台呈指数级成长。这个以美国电脑科学家先驱葛丽丝·霍普(Grace Hopper)命名的全新架构,将接替两年前推出的 NVIDIA Ampere 架构。
NVIDIA 同时宣布推出首款采用 Hopper 架构的 GPU 产品 NVIDIA H100,封装 800 亿个电晶体,是全球最大且效能最强大的加速器,具突破性的功能,例如革命性的 Transformer Engine 及具高度扩展性的 NVLink 互连技术,可用于推动极大规模的 AI 语言模型、深度推荐系统、基因组学和复杂的数位孪生等领域的发展。
-
NVIDIA H100 这款 GPU 封装了 800 亿个电晶体,是全球最大且效能最强大的加速器
NVIDIA 创办人暨执行长黄仁勋表示:“资料中心将成为 AI 工厂,用来处理海量资料并从中提炼出宝贵的智慧。NVIDIA H100 是全球 AI 基础设施的引擎,让企业得以加速推动各项 AI 业务的进展。”
H100 的突破性技术
NVIDIA H100 GPU 为加速大规模 AI 及高效能运算树立了新标准,并带来六项突破性创新:
- 全球最先进的芯片:H100 拥有 800 亿个电晶体,采用台积电 4 奈米 4N 制程、专为满足 NVIDIA 加速运算需求而设计,在加速 AI、高效能运算、内存频宽、互连和通讯方面具有重大进展,包括每秒近 5TB 的外部连接速度。H100 是首款支援 PCIe Gen5 及首款使用 HBM3 的 GPU 产品,提供每秒 3TB 的内存频宽。20 个 H100 GPU 便足以支撑全世界的网络流量,让客户得以运行先进的推荐系统和大型语言模型,即时使用各项资料进行推论。
- 全新 Transformer Engine:Transformer 已是自然语言处理的首选标准模型,是史上最重要的深度学习模型之一。相较于前一代产品,H100 加速器的 Transformer Engine 能够将这些网络的速度提高六倍,又不失其精度。
- 第二代安全多执行个体 GPU:多执行个体 GPU(Multi-Instance GPU;MIG)技术可以将一个 GPU 分割成七个较小、完全隔离的执行个体以处理各类工作。Hopper 架构在云端环境里为每个 GPU 执行个体提供安全的多租户配置,将 MIG 的能力较前一代扩大高达七倍。
- 机密运算:H100 是全球首款具有机密运算能力的加速器,可以在处理 AI 模型和客户资料时加以保护。对于医疗照护和金融服务等对隐私极为敏感的产业,在进行联邦学习时同样能运用机密运算,在共享的云端基础设施上也同样可行。
- 第四代 NVIDIA NVLink:为加快最大型 AI 模型的运作速度,以 NVLink 搭配全新的外部 NVLink 交换器,将 NVLink 当成服务器以外的垂直扩展网络,相较于使用 NVIDIA HDR Quantum InfiniBand 的前一代产品,能以超过九倍的频宽连接多达 256 个 H100 GPU。
- DPX 指令:与使用 CPU 相比,全新 DPX 指令将用于众多算法(包括路线最佳化及基因组学)的动态规画执行速度加快高达 40 倍;而与使用前一代的 GPU 相比,速度加快了七倍。这包括为动态仓库环境中的自主机器人车队寻找最佳路线的 Floyd-Warshall 算法,以及用于 DNA 和蛋白质分类及折叠的序列比对 Smith-Waterman 算法。
-
NVIDIA H100 为每个资料中心提供突破性的效能、可扩展性与安全性
H100 的多项技术创新扩大了 NVIDIA 在 AI 推论和训练的领先地位,使 NVIDIA 能够利用巨大的 AI 模型做到即时和沉浸式应用。H100 让聊天机器人可以使用全球最强大的单体 transformer 语言模型 Megatron 530B,其传输量超过前一代产品达 30 倍,同时满足即时对话式 AI 所需的次秒级延迟。H100 同时让研究人员和开发人员能够训练像是 Mixture of Experts 这类大规模模型,包含 3,950 亿个参数,能将速度提高达九倍,将训练时间从过去所需的数周减少到数日便能完成。
业界广泛采用 NVIDIA H100
NVIDIA H100 可以部署在各类型的资料中心内,包括企业内部、云端、混合云和边缘。预计今年稍晚透过全球各大云端服务供应商及电脑制造商供货,也可以直接向 NVIDIA 购买。
-
各种规格的 NVIDIA H100 将直接由 NVIDIA 及全球顶尖的系统制造商和云端供应商提供
NVIDIA 第四代 DGX 系统 DGX H100 搭载八个 H100 GPU,可在全新 FP8 精度下提供 32 petaflops 的 AI 运算表现,这个规模足以满足大型语言模型、推荐系统、医疗研究及气候科学的大规模运算需求。
透过第四代 NVLink 技术连接 DGX H100 系统中的每个 GPU,能提供每秒 900GB 的连接速度,高出前一代产品 1.5 倍。NVSwitch 技术让八个 H100 GPU 能透过 NVLink 连接。一台外部 NVLink 交换器可以连接新一代 NVIDIA DGX SuperPOD 超级电脑中多达 32 个 DGX H100 节点。
Hopper 已经获得各大云端服务供应商的支持,包括阿里云、Amazon Web Services(AWS)、百度智能云、Google Cloud、Microsoft Azure、Oracle Cloud 和腾讯云,这些业者计画将提供基于 H100 的执行个体。
全球一级系统制造商预计将推出多款搭载 H100 加速器的服务器产品,包括源讯(Atos)、BOXX Technologies、思科(Cisco)、戴尔科技(Dell Technologies)、富士通(Fujitsu)、技嘉(GIGABYTE)、新华三(H3C)、慧与科技(Hewlett Packard Enterprise)、浪潮(Inspur)、联想(Lenovo)、Nettrix 与美超微(Supermicro)。
各种规格的 NVIDIA H100
H100 将有 SXM 和 PCIe 两种规格,以满足各种服务器的设计要求。同时也将推出一款融合加速器,将 H100 GPU 搭配 NVIDIA ConnectX-7 400Gb/s InfiniBand 及 Ethernet SmartNIC。
H100 SXM 规格将用于 HGX H100 服务器主机板上,提供四路和八路配置,供企业在一台服务器和多台服务器上的应用程式扩大到多个 GPU 上。搭载 HGX H100 的服务器为 AI 训练和推论、资料分析和高效能运算应用程式提供最佳运算表现。
-
NVIDIA HGX H100 服务器主机板将提供四路和八路配置,供企业在一台服务器的多个系统上的应用程式扩大到多个 GPU 上
H100 PCIe 规格使用 NVLink 来连接两个 GPU,提供较 PCIe 5.0 高出七倍的频宽,为在主流企业服务器上运行的应用程式提供出色效能。PCIe 的规格尺寸让此产品能够轻松地被纳入现有的资料中心基础设施中。
全新的融合加速器 H100 CNX 是将 H100 搭配 ConnectX-7 SmartNIC,为企业资料中心的多节点 AI 训练以及边缘的 5G 讯号处理等 I/O 密集型应用程式提供突破性的效能。
-
融合加速器 H100 CNX 将 NVIDIA H100 搭配 ConnectX-7 SmartNIC,为 IO 密集型应用程式提供突破性的效能
采用 NVIDIA Hopper 架构的 GPU 还能与 NVIDIA Grace CPU 搭配,后者具备超高速 NVLink-C2C 互连技术,与 PCIe 5.0 相比,CPU 与 GPU 之间的资料传输速度提高七倍以上。这样的组合诞生出 Grace Hopper 超级芯片,用于巨大规模高效能运算及 AI 应用程式的整合模组。
NVIDIA 软件支援
NVIDIA 提供强大的软件工具来支援 H100 GPU,开发人员与企业便能建立及加速 AI 与高效能运算各类应用程式,包括针对语音、推荐系统和超大规模推论等作业负载所推出的 NVIDIA AI 软件套件重大更新。
NVIDIA 同时发布了超过 60 项 CUDA-X 函式库、工具和技术更新,以加快量子运算、6G 网络研究、网络安全、基因组学和药物开发等方面的进展。
供货时程
NVIDIA H100 将于第三季开始供货。