最新的MLPerf结果已经发布,NVIDIA 为 AI 推理提供了从云端到边缘的最高性能和效率。作为独立的第三方基准,MLPerf 仍然是衡量 AI 性能的有用指标。自 MLPerf 推出以来,NVIDIA 的 AI 平台在训练和推理方面一直名列前茅,包括最新的 MLPerf Inference 3.0 基准测试。

英伟达GPU在最新的MLPerf测试中达到AI性能的新水平

由于软件优化,在 DGX H100 系统中运行的 NVIDIA H100 Tensor Core GPU 在每次 AI 推理测试中都提供了最高性能,比 9 月份首次亮相时提高了 54%。在医疗保健领域,H100 GPU 在 3D-UNet(医学成像的 MLPerf 基准)上实现了 31% 的性能提升。

基于 Hopper 架构的 H100 GPU 由其 Transformer Engine 提供支持,在 BERT 上表现出色。BERT 是谷歌开发的一种自然语言处理模型,它学习文本的双向表示,以显着提高在许多不同任务中对未标记文本的上下文理解。它是整个类 BERT 模型系列(例如 RoBERTa、ALBERT 和 DistilBERT)的基础。

借助生成式 AI,用户可以快速创建文本、图像、3D 模型等。从初创公司到云服务提供商,公司都在采用生成式人工智能来支持新的商业模式并加速现有的商业模式。最近出现在新闻中的一种生成式 AI 工具是 ChatGPT,数百万人使用它,希望在查询和输入后立即得到响应。

随着深度学习无处不在,推理性能至关重要,从工厂车间到在线推荐系统。

在处女航中,NVIDIA L4 Tensor Core GPU 的性能是上一代 T4 GPU 的 3 倍以上。L4 GPU 加速器采用低调外形封装,旨在为几乎所有服务器平台提供高吞吐量和低延迟。L4 Tensor GPU 运行所有 MLPerf 工作负载,并且由于它们对 FP8 格式的支持,在性能要求很高的 BERT 模型上的结果非常出色。

除了极致的 AI 性能,L4 GPU 还提供高达 10 倍的图像解码速度、高达 3.2 倍的视频处理速度以及超过 4 倍的图形和实时渲染性能。几周前在 GTC 上宣布的加速器可从系统制造商和云服务提供商处获得。

什么网络部门?

NVIDIA 的全栈 AI 平台在新的 MLPerf 测试中展示了它的价值:网络划分基准测试!

网络划分基准将数据流式传输到远程推理服务器。它反映了企业用户在云中运行 AI 作业并将数据存储在企业防火墙后面的普遍场景。

在 BERT 上,远程 NVIDIA DGX A100 系统提供了其最大本地性能的 96%,但在等待 CPU 完成某些任务时会部分变慢。在仅由 GPU 处理的计算机视觉 ResNet-50 测试中,它们达到了 100%。

NVIDIA Quantum Infiniband 网络、NVIDIA ConnectX SmartNIC 和 NVIDIA GPUDirect 等软件在测试结果中发挥了重要作用。

另外,与去年的结果相比,NVIDIA Jetson AGX Orin 系统级模块的能效提高了 63%,性能提高了 81%。Jetson AGX Orin 在密闭空间需要低功率水平的 AI 时提供推理,包括电池供电系统。

Jetson Orin NX 16G 是一个更小的模块,需要更少的功率,在基准测试中表现良好。它的性能是 Jetson Xavier NX 处理器的 3.2 倍。

NVIDIA 人工智能生态系统

MLPerf 结果表明,NVIDIA AI 得到了广泛的机器学习生态系统的支持。本轮10家企业提交了NVIDIA平台的成果,包括微软Azure云服务和系统厂商、华硕、戴尔科技、技嘉科技、新华三、联想、Nettrix、超微、xFusion。他们的工作表明,用户可以在云端和在他们自己的数据中心运行的服务器中使用 NVIDIA AI 获得出色的性能。