在配有 NVIDIA T4 GPU 的 Dell EMC DSS 8440 服务器上使用 NVIDIA Clara Parabricks 加速基因组数据分析速度

处理下一代测序 (NGS) 数据的第一步称为初级分析。此步骤特定于测序仪器，并生成包含测序读数的多个 FASTQ 文件。在下一步（即所谓的二次分析）中，FASTQ 测序读数会映射到参考基因组或参考转录组。附加处理会识别感兴趣的样本和参考样本之间是否存在变异或差异。在后续下游步骤中，将对变异进行批注并进行解释。对单个样本的二次分析时间从数小时到数天不等，具体取决于数据大小、可用计算资源、软件和分析工作流。

二次分析是一个计算和存储密集型过程，特别是在处理成百上千个基因组时更是如此。人们会采用许多策略来避免二次分析瓶颈。直到最近，由于硬件加速器需要自定义软件，使用 GPU 或 FPGA 的硬件加速的采用率仍然很低。Parabricks 的基因组学软件率先采用使用 GPU 执行各种基因组分析工作流的软件堆栈，该公司已于 2019 年被 NVIDIA 收购。大约两年前，我们通过 Dell EMC PowerEdge C4140/4x NVIDIA® Tesla® V100 GPU 测试了 Parabricks。戴尔在其服务器和存储解决方案中引入了许多先进技术，并且 NVIDIA Clara Parabricks 发布了具有增强加速功能并添加各种调用程序的健壮版本。例如，基于配有 NVIDIA® Tesla® T4 GPU 的 DELL EMC DSS 8440 服务器的多 GPU 服务器设计很有希望加快二次分析，同时在价格和性能之间提供有吸引力的平衡。此博客报告了 NVIDIA Clara Parabricks 在配有 Dell EMC Isilon F800 存储的多 Tesla®T4 GPU DSS 8440 服务器上进行二次分析的新参考体系结构和基准测试结果。

图 1 说明了经测试的参考体系结构。该体系结构采用模块化结构且易于扩展。NVIDIA Clara Parabricks 应用程序软件使用一个或多个 GPU，以尽可能简单地进行横向扩展。硬件构造块包含作为管理节点的 Dell EMC PowerEdge R640、用于 GPU 计算的 DSS 8440 服务器以及 Dell EMC Isilon F800 存储。

图 1 经测试的参考体系结构

DSS 8440 2 路 4U 服务器最多可容纳 10 个 NVIDIA® Tesla® V100S Tensor Core GPU、最多 10 个 NVIDIA® Quadro RTX™ GPU，或最多 16 个 NVIDIA Tesla T4 GPU，从而提供所需强劲动力。表 1 列出了 DSS 8440 的详细配置。

Dell EMC DSS 8440
CPU 2 个至强® Gold 6248R 24 核 3.0 GHz
RAM 24 个 64GB，速度为 2933 MT/s
操作系统 Red Hat Enterprise Linux Server 7.4 版 (Maipo)
BIOS 系统配置文件性能已优化
逻辑处理器已禁用
虚拟化技术已禁用
加速器 16 个 NVIDIA® Tesla® T4 GPU
Parabricks v3.0.0.05

两个 Z9100 的交换机提供了计算节点与 Isilon F800 存储群集之间的互连。另一个交换机 N2248X-ON 用于执行管理。

二次分析运行时间的基准数据包括三个人类全基因组测序 (WGS) 数据集，ERR091571、SRR3124837 和 ERR194161，分别代表 10 倍、30 倍和 50 倍的样本覆盖率。这些数据集可在欧洲核苷酸档案库 (ENA) 中找到。

软件改进减少了运行时间
NVIDIA 一如既往地为 NVIDIA Clara Parabricks 提供软件改进。图 2 显示的是使用配有 4 个 V100 GPU 的 Dell PowerEdge C4140 服务器测试环境执行 Parbarricks 生殖系突变分析的两个版本之间的运行时间缩减对比。v2.1.0 升级到 v3.0.0 后，运行时间减少了 42%。

图 2 最新版本的 Parabricks 生殖系变异探索流程运行时间。
配有 16 个 T4 的 DSS 8440 的性能
与使用一个 V100 GPU 相比，使用单个 T4 GPU 的 NVIDIA Clara Parabricks 二次分析的运行时间约慢 30%。但是，两 (2) 个 T4 GPU 提供的 TFLOPS 约比一 (1) 个 V100 GPU 多 10%，成本约为一半。DSS 8440 提供多达 16 个 PCIe 插槽，这为设计基于 T4 GPU 的服务器提供了可能性，该服务器可提供与配有 4 个 V100 GPU 的 C4140 系统类似的运行时间性能，但成本较低。
使用配有 16 个 T4 GPU 的 PowerEdge DSS 8440 进行 Parabricks 生殖系分析。对于先前所述的每个 WGS 样本数据集，每次分别使用 1、2、4、8 和 16 个 T4 GPU 进行二次分析并记录下运行时间。结果如图 3 至图 5 所示。总的来说，运行时间不会随着每次分析的 GPU 数量的增加而线性扩展。扩展模式类似于每个样本的数据量从 10 倍增加到 50 倍。
尽管这里没有介绍，但对 Parabricks 运行时间的早期 Dell EMC 调查结果（每次分析使用 8 个或更多 V100 GPU）并不能像 T4 GPU 那样高效地扩展。其他测试表明 6 个 T4 GPU 时的运行时间结果与 4 个 V100 GPU 基本相同。

图 3 与 10 个 WGS 的性能比较

图 4 与 30 个 WGS 的性能比较

图 5 与 50 个 WGS 的性能比较

配备 16 个 T4 GPU 的 DSS 8440 每天能够处理 50 个人类基因组（30 倍覆盖度）。使用传统 x86 CPU 体系结构的类似每日分析吞吐量需要 10 个 PowerEdge C6420 计算节点。完整的体系结构在以前的戴尔出版物中进行了讨论。
但是，将所有 16 个 T4 GPU 用于处理一个样本几乎没有好处，因为每次分析使用 16 个 GPU 最多比使用 8 个 GPU 快 10%。DSS 8440 的设计允许并行进行多个二次分析。通过为每个样本分配八个 T4 GPU，每日分析吞吐量可增加到每天处理约 50 个基因组。每个样本使用四个 GPU 会将分析吞吐量增加到每天约 70 个基因组。更重要的是，使用 T4 GPU 的每日输出不到使用 V100 GPU 设计成本的一半。
除了速度之外，与其他分析工具的兼容性对结果的可比性至关重要。Parabricks 生殖系分析结果与之前测试的已知 BWA-GATK 单倍型分析结果几乎相同。我们还希望将 Parabricks 变异探索结果与 samtools/mpileup 等其他工具集进行比较。这两个完全不同的工具对已鉴定的变异达到了约 90% 的总体一致性，而在许多已知的包含重要基因的基因组区域的变异一致性超过 99%。

在配有 NVIDIA T4 GPU 的 Dell EMC DSS 8440 服务器上使用 NVIDIA Clara Parabricks 加速基因组数据分析速度

二次分析运行时间的基准数据包括三个人类全基因组测序 (WGS) 数据集，ERR091571、SRR3124837 和 ERR194161，分别代表 10 倍、30 倍和 50 倍的样本覆盖率。这些数据集可在欧洲核苷酸档案库 (ENA) 中找到。

在配有 NVIDIA T4 GPU 的 Dell EMC DSS 8440 服务器上使用 NVIDIA Clara Parabricks 加速基因组数据分析速度

二次分析运行时间的基准数据包括三个人类全基因组测序 (WGS) 数据集，ERR091571、SRR3124837 和 ERR194161，分别代表 10 倍、30 倍和 50 倍的样本覆盖率。这些数据集可在欧洲核苷酸档案库 (ENA) 中找到。