Dell EMC DSS 8440 服务器由 NVIDIA RTX GPU 提供支持,适合处理 HPC 和 AI 工作负载

来源:GPU工作站 发布时间:2023-05-10 16:53:30 阅读量:332

Dell EMC DSS 8440 服务器由 NVIDIA RTX GPU 提供支持,适合处理 HPC 和 AI 工作负载

摘要: Dell EMC DSS8440 服务器是一个2插槽、4U 服务器,专为高性能计算、机器学习(ML)和深入学习工作负载而设计。本文章比较了各种 Gpu 的性能,例如 NVIDIA Volta V100S 和 NVIDIA Tesla T4 Tensor Core Gpu 以及此系统中的 NVIDIA quadro RTX Gpu。

症状

Deepthi Cherlopalle 和 Frank 汉语

Dell EMC HPC 和 AI 创新实验室2020年6月

DELL EMC DSS8440服务器是一个2插槽、4u 服务器,专为高性能计算、机器学习(ML)和深入学习工作负载而设计。它支持各种 Gpu,例如 NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 和 nvidia Tesla T4SLN321776_en_US__1iC_External_Link_BD_v1 TENSOR Core gpu 以及nvidia quadro RTX gpuSLN321776_en_US__1iC_External_Link_BD_v1 。

SLN321776_en_US__4image (18426)

图. 1 Dell EMC DSS840 服务器)

在本博客中,我们通过使用各种行业标准的基准测试工具来评估经济高效的 NVIDIA Quadro RTX 6000 和 NVIDIA Quadro RTX 8000 Gpu 的性能。这包括针对单个和双精度工作负载进行测试。虽然 Quadro 系列存在很长的时间,但在2018中启动了带有 NVIDIA 开启体系结构的 RTX Gpu。表1中的规格显示了在内存配置更高的情况下,RTX 8000 GPU 优于 RTX 6000。但是,与 V100S GPU 相比,RTX 8000 和 RTX 6000 Gpu 具有更高的功率需求。对于需要更高内存容量的工作负载,RTX 8000 是更好的选择。

规格RTX 6000RTX 8000V100S-32 GB
体系结构TuringVolta
内存24 GB GDDR648 GB GDDR632 GB HBM2
默认时钟速率(MHz)13951245
GPU 最大时钟速率(MHz)17701597
CUDA 核心46085120
FP32 (TFLOPS 最大值)16.316.4
内存带宽(GB/s)6721134
电源295 W250 W

表 1 GPU 规格

服务器DellEMC,PowerEdge, DSS8440
处理器2 x 英特尔至强6248,20 C @ 2.5 GHz
内存24 x 32 GB @ 2933 MT/s (总共 768 GB)
GPU 8个 Quadro RTX 6000   8个 Quadro RTX 8000  8个 Volta V100S-PCIe 
存储器1 x Dell Express 闪存 NVMe 1 TB 2.5 "U. 2 (P4500)
电源设备4 x 2400 W

表. 2 服务器配置详细信息

BIOS2.5.4
OSRHEL 7.6
内核3.10.0-957.el7.x86_64
系统配置文件性能已优化
CUDA 工具包
CUDA 驱动程序
10.1
440.33.01

表 3 系统固件详细信息

应用程序版本
HPLhpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel MKL 2018 更新4
LAMMPS3 2020 年3月
OpenMPI –4.0。3
MLPERFv 0.6 培训SLN321776_en_US__1iC_External_Link_BD_v1
docker 19.03

表. 4 应用程序信息

原因

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1是由研究人员在 Sandia 国内实验室和 Temple 大学维护的 Molecular Dynamics 应用程序。LAMMPS 使用KOKKOS 程序包SLN321776_en_US__6iC_External_Link_BD_v1 进行了编译,以便在 NVIDIA gpu 上有效运行。Lennard _ 数据集用于性能比较,Timesteps/s 是图2中所示的指标:

SLN321776_en_US__8image (18427)

图. 2 Lennard

 如表1所示,RTX 6000 和 RTX 8000 Gpu 具有相同数量的核心、单精度性能和 GPU 带宽,但 GPU 内存不同。由于两个 RTX Gpu 都具有类似的配置,因此性能也在相同的范围内。RTX Gpu 适合此应用程序,并且两个 Gpu 的性能完全相同。

Volta V100S GPU 性能大约快三倍于 Quadro RTX Gpu。此更高性能的关键因素是 V100S GPU 的 GPU 内存带宽越高。


High Performance Linpack (HPL)

HPL 是用于衡量计算性能的标准 HPC 基准。它用作 TOP500 列表的参考基准,以在全球范围内排名 supercomputers。

下图显示了使用 DSS 8440 服务器的 RTX 6000、RTX 8000 和 V100S Gpu 的性能。正如您所见,RTX Gpu 的性能显著低于 V100S GPU。这将成为预期,因为 HPL 将执行主要为双精度浮点操作的矩阵 LU factorization。

SLN321776_en_US__9image (18428)

图 3 HPL 具有不同 Gpu 的性能)

如果比较理论上的浮点性能(即,两个 Gpu 的 Rpeak),则会看到 V100S GPU 的性能更高。单个 RTX GPU 上的理论 Rpeak 值约为500GFlops。对于每个 GPU,此值将产生较少的性能(Rmax)。Volta V100S GPU 的 Rpeak 值为 8.2 TFlops,这可从每个卡中获得更高的性能。


MLPerf

对于 ML led 开发 MLPerf suite 的行业标准性能基准的需求。此套件包括评估 ML 硬件和软件的培训和推理性能的基准。本部分仅解决 Gpu 的培训性能。下表列出了用于计算 Gpu 的深层学习工作负载、数据集和目标条件。

测试Dataset质量目标参考实施模式
映像分类ImageNet (224x224)75.9% 前1准确性Resnet-50 v 1。5
对象检测
(光线)
COCO 201723% 图SSD-ResNet34
对象检测
(密集)
COCO 20170.377 框最小 AP
0.339 掩码最小 ap
Mask R-CNN
翻译
(重复性)
WMT 英语-德语24.0 BLEUGNMT
翻译
(非重复性)
 WMT 英语-德语 25.0 BLEU转换
强化学习不适用经过预先培训的检查点小型 Go

表 5 MLPerf 数据集和目标条件(源:https://mlperf.org/training-overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

下图显示满足 RTX 和 V100S gpu 的目标条件的时间:

SLN321776_en_US__11image (18441)
图. 4 MLPERF 性能)

在执行多个运行,丢弃最高和最低的值,并根据列出的指导准则求出其他运行的结果。两个 RTX Gpu 的性能相似。两个 RTX Gpu 之间的差异百分比非常小,并且根据 MLPerf 原则在验收范围内。虽然 Volta V100 GPU 可提供最佳性能,但除了对象检测基准以外,RTX Gpu 也能更好地执行。

在发布时,由于发生了卷积错误,MLPerf 中的映像分类基准会因 RTX Gpu 而失败。预计将在未来的 cuDNN 版本中修复此问题。

解决方案

摘要

在本博客中,我们讨论了 Dell EMC DSS 8440 GPU 服务器和 NVIDIA RTX Gpu 的性能,以用于 HPC 和 AI 工作负载。两个 RTX Gpu 的性能相似,但是,对于需要较大内存量的应用程序而言,RTX 8000 GPU 是最佳选择。对于双精度工作负载或需要高内存带宽的工作负载,Volta V100S 和新 NVIDIA A100 GPU 是最佳选择。

将来,我们计划在 RTX Gpu 上针对其他单精度应用程序和对 RTX 和 A100 Gpu 的推理调查进行性能分析。


  网站地图
沪ICP备19040636号-1
Catfish(鲶鱼) Blog V 4.7.3