Dell EMC DSS 8440 服务器由 NVIDIA RTX GPU 提供支持，适合处理 HPC 和 AI 工作负载

摘要: Dell EMC DSS8440 服务器是一个2插槽、4U 服务器，专为高性能计算、机器学习（ML）和深入学习工作负载而设计。本文章比较了各种 Gpu 的性能，例如 NVIDIA Volta V100S 和 NVIDIA Tesla T4 Tensor Core Gpu 以及此系统中的 NVIDIA quadro RTX Gpu。

症状

Deepthi Cherlopalle 和 Frank 汉语

Dell EMC HPC 和 AI 创新实验室2020年6月

DELL EMC DSS8440服务器是一个2插槽、4u 服务器，专为高性能计算、机器学习（ML）和深入学习工作负载而设计。它支持各种 Gpu，例如 NVIDIA Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 和 nvidia Tesla T4 TENSOR Core gpu 以及nvidia quadro RTX gpu 。

SLN321776_en_US__4image （18426）

（图. 1 Dell EMC DSS840 服务器）

在本博客中，我们通过使用各种行业标准的基准测试工具来评估经济高效的 NVIDIA Quadro RTX 6000 和 NVIDIA Quadro RTX 8000 Gpu 的性能。这包括针对单个和双精度工作负载进行测试。虽然 Quadro 系列存在很长的时间，但在2018中启动了带有 NVIDIA 开启体系结构的 RTX Gpu。表1中的规格显示了在内存配置更高的情况下，RTX 8000 GPU 优于 RTX 6000。但是，与 V100S GPU 相比，RTX 8000 和 RTX 6000 Gpu 具有更高的功率需求。对于需要更高内存容量的工作负载，RTX 8000 是更好的选择。

规格	RTX 6000	RTX 8000	V100S-32 GB
体系结构	Turing		Volta
内存	24 GB GDDR6	48 GB GDDR6	32 GB HBM2
默认时钟速率（MHz）	1395		1245
GPU 最大时钟速率（MHz）	1770		1597
CUDA 核心	4608		5120
FP32 （TFLOPS 最大值）	16.3		16.4
内存带宽（GB/s）	672		1134
电源	295 W		250 W

表 1 GPU 规格

服务器	DellEMC,PowerEdge, DSS8440
处理器	2 x 英特尔至强6248，20 C @ 2.5 GHz
内存	24 x 32 GB @ 2933 MT/s （总共 768 GB）
GPU	8个 Quadro RTX 6000	8个 Quadro RTX 8000	8个 Volta V100S-PCIe
存储器	1 x Dell Express 闪存 NVMe 1 TB 2.5 "U. 2 （P4500）
电源设备	4 x 2400 W

表. 2 服务器配置详细信息

BIOS	2.5.4
OS	RHEL 7.6
内核	3.10.0-957.el7.x86_64
系统配置文件	性能已优化
CUDA 工具包 CUDA 驱动程序	10.1 440.33.01

表 3 系统固件详细信息

应用程序	版本
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 更新4
LAMMPS	3 2020 年3月 OpenMPI –4.0。3
MLPERF	v 0.6 培训 docker 19.03

表. 4 应用程序信息

原因

LAMMPS

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 是由研究人员在 Sandia 国内实验室和 Temple 大学维护的 Molecular Dynamics 应用程序。LAMMPS 使用KOKKOS 程序包进行了编译，以便在 NVIDIA gpu 上有效运行。Lennard _ 数据集用于性能比较，Timesteps/s 是图2中所示的指标：

SLN321776_en_US__8image （18427）

（图. 2 Lennard

如表1所示，RTX 6000 和 RTX 8000 Gpu 具有相同数量的核心、单精度性能和 GPU 带宽，但 GPU 内存不同。由于两个 RTX Gpu 都具有类似的配置，因此性能也在相同的范围内。RTX Gpu 适合此应用程序，并且两个 Gpu 的性能完全相同。

Volta V100S GPU 性能大约快三倍于 Quadro RTX Gpu。此更高性能的关键因素是 V100S GPU 的 GPU 内存带宽越高。

High Performance Linpack (HPL)

HPL 是用于衡量计算性能的标准 HPC 基准。它用作 TOP500 列表的参考基准，以在全球范围内排名 supercomputers。

下图显示了使用 DSS 8440 服务器的 RTX 6000、RTX 8000 和 V100S Gpu 的性能。正如您所见，RTX Gpu 的性能显著低于 V100S GPU。这将成为预期，因为 HPL 将执行主要为双精度浮点操作的矩阵 LU factorization。

SLN321776_en_US__9image （18428）

（图 3 HPL 具有不同 Gpu 的性能）

如果比较理论上的浮点性能（即，两个 Gpu 的 Rpeak），则会看到 V100S GPU 的性能更高。单个 RTX GPU 上的理论 Rpeak 值约为500GFlops。对于每个 GPU，此值将产生较少的性能（Rmax）。Volta V100S GPU 的 Rpeak 值为 8.2 TFlops，这可从每个卡中获得更高的性能。

MLPerf

对于 ML led 开发 MLPerf suite 的行业标准性能基准的需求。此套件包括评估 ML 硬件和软件的培训和推理性能的基准。本部分仅解决 Gpu 的培训性能。下表列出了用于计算 Gpu 的深层学习工作负载、数据集和目标条件。

测试	Dataset	质量目标	参考实施模式
映像分类	ImageNet (224x224)	75.9% 前1准确性	Resnet-50 v 1。5
对象检测（光线）	COCO 2017	23% 图	SSD-ResNet34
对象检测（密集）	COCO 2017	0.377 框最小 AP 0.339 掩码最小 ap	Mask R-CNN
翻译（重复性）	WMT 英语-德语	24.0 BLEU	GNMT
翻译（非重复性）	WMT 英语-德语	25.0 BLEU	转换
强化学习	不适用	经过预先培训的检查点	小型 Go

表 5 MLPerf 数据集和目标条件（源：https://mlperf.org/training-overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 ）

下图显示满足 RTX 和 V100S gpu 的目标条件的时间：

SLN321776_en_US__11image （18441）
（图. 4 MLPERF 性能）

在执行多个运行，丢弃最高和最低的值，并根据列出的指导准则求出其他运行的结果。两个 RTX Gpu 的性能相似。两个 RTX Gpu 之间的差异百分比非常小，并且根据 MLPerf 原则在验收范围内。虽然 Volta V100 GPU 可提供最佳性能，但除了对象检测基准以外，RTX Gpu 也能更好地执行。

在发布时，由于发生了卷积错误，MLPerf 中的映像分类基准会因 RTX Gpu 而失败。预计将在未来的 cuDNN 版本中修复此问题。

解决方案

摘要

在本博客中，我们讨论了 Dell EMC DSS 8440 GPU 服务器和 NVIDIA RTX Gpu 的性能，以用于 HPC 和 AI 工作负载。两个 RTX Gpu 的性能相似，但是，对于需要较大内存量的应用程序而言，RTX 8000 GPU 是最佳选择。对于双精度工作负载或需要高内存带宽的工作负载，Volta V100S 和新 NVIDIA A100 GPU 是最佳选择。

将来，我们计划在 RTX Gpu 上针对其他单精度应用程序和对 RTX 和 A100 Gpu 的推理调查进行性能分析。

上一篇：在配有 NVIDIA T4 GPU 的 Dell EMC DSS 8440 服务器上使用 NVIDIA Clara Parabricks 加速基因组数据分析速度

下一篇：使用 MLPerf 基准的 T4 GPU 的深度学习性能