GPU 虚拟化 [二]

来源：术道经纬发布时间：2023-07-13 11:27:55 阅读量：962

硬件 - 空分

上文介绍的基于 SR-IOV 硬件虚拟化技术的 GPU，VF 的数量比较固定，且每个 VF 获得的资源是均分的、定额的。将这些 VF 透传给虚拟机后，由于各个虚机的 workload 不同，就可能出现某些 VF 的资源不够用，而另一些 VF 的资源用不完的情况。

饱汉不知饿汉饥，绝对的平均虽然简单，但对资源的利用并不充分。

作为业界一哥的 Nvidia【注-1】，自 2020 年的 Ampere 微架构（比如 A100）开始支持一种叫做 MIG (Multi Instance GPU) 的技术，可使 GPU 的综合利用率更加饱和。毕竟现在高端 GPU 老贵了不是，据 Nvidia 官网报价， A100 售价 1 万美元/块（北上深一平米的价格），H100 售价 3.6 万美元/块（北上深的豪宅一平米的价格），必须物尽其用啊。

Multi-Instance，那一个 instance 具体是什么呢？

一颗 Discrete GPU 的硬件资源主要包括两类：计算单元和内部存储（video memory）。如果对它们分片，那么就形成了 compute slice 和 memory slice（每个 memory slice 有独立的 memory controller 和 cache，不损失访问带宽）。

然后我可以根据 workload 的需要，将这些 slices 进行一定的组合，就形成了多个 instance（vGPU）：

比如上图的 "4g.20gb"，表示的是 4 个 compute slice，20 GB 显存（4 个 memory slice）:

划分方式多种多样，在不牺牲隔离性的同时提高了应用的灵活性：

不过 slice 的划分不是随心所欲的，不是你想切多细就能切多细（想起了涡虫），还是受到底层硬件设计的限制：

MIG 技术可视作是基于传统 SR-IOV 的演进和创新，一个 instance 大致可对应一个 PCIe VF。

以 MIG 为代表的硬件资源划分主要在空间上（spatial），同一物理 GPU上的各个 vGPU 获得的资源是专属的（dedicate），可以获得良好的并行性。

软件 - 时分

不过 MIG 的 partition 同普通 SR-IOV 一样，依然是静态的，不可在使用过程中动态调整。假设中途有 vGPU 被移除，那么空出来的资源也不能被重新分配。

与之相对的是软件从时间上（temporal）的划分，即 Time-Sliced vGPU（也有一定的 hardware-assistant）。

这种虚拟化方式就和 CPU 虚拟化就比较像了。vGPU 被串行地调度执行，一个 vGPU 需等待其他 vGPU 让出物理 GPU，但当它获得物理 GPU 时，其对 GPU engine 的使用是 exclusive 的。

如果出现 vGPU 的动态移除或添加，那么每个 vGPU 可分配到的 cycle 数将被重新计算。

最近读《杨苡口述自传》，正好看到这么一段话“系里师生间都在传，好几位女士在追他。据说范先生见谁都有严格的时间，她们几个是不会碰到的”，有评论说是“时间管理大师”。

另一种相似的软件虚拟化方案是 vfio-mdev（其中 "m" 代表 mediate），大致是通过软件层的协调，向上呈现出一个类似 VF 的 mdev 设备。Intel 基于 mdev 的虚拟化技术叫做 GVT-g，被 i915 等芯片驱动所采用。

这里说的“软件”的功能（比如 scheduling），主要是由 KVM/Xen 这样的 hypervisor 来承担的，而硬件虚拟化是不需要 hypervisor 介入的。

小结

目前的 A100 和 H100 等芯片，支持选择使用 MIG-Backed 或 Time-Sliced 模式，Nvidia 早期的一些型号，则只支持 Time-Sliced。

MIG 模式下，vGPU 之间互不影响，具有比较确定的 throughput 和 latency，而这正是 real-time 的标准（「实时性」不在于响应有对快，而在于能在确定的时间内返回确定的结果）。在这一点上，MIG 是优于软件虚拟化方案的。

但不管是上文提到的物理 GPU 整体透传（PCI-Passthrough），还是部分透传（VF-Passthrough/MIG），在虚拟化场景下都难以支持 live-migration。

综合来看，MIG 作为新一代的技术，对性能、隔离性和灵活性有较好的兼顾，但目前也存在使用上的一些限制，并且对硬件设计的能力应该要求较高。二三线厂商在虚拟化方面多以硬件的 PF/VF 方式打底，再结合 mdev 等软件方案来扩展适用面。

注-1：Ampere 就是电流单位「安培」，以纪念法国物理学家 Ampère。Nvidia 的 GPU 架构多以这些科学先驱命名，其他还有 Volta, Turing, Tesla 等。

上一篇：GPU 虚拟化 [一]

下一篇：GPU巨头，拼什么？

随机文章

入门级存储的黄金标准再更新，PowerVault ME5来了！

入门级存储首选，PowerVault ME5性能实测！

老板，我们的服务器又被黑了！

PowerEdge R750完整性能测试来了！

PowerEdge R7525 机架式服务器

NIDAO共享云平台（三）

热评文章

入门级存储的黄金标准再更新，PowerVault ME5来了！

入门级存储首选，PowerVault ME5性能实测！