Nvidia H100 GPU 供需现状：43 万张 H100，Nvidia 将如何分配？ | 技术站 | GPU服务器、GPU运算、DELL服务器、超聚变、Inspur、信息安全、解决方案、产品交流分享经验,共同学习进步

Nvidia H100 GPU 供需现状：43 万张 H100，Nvidia 将如何分配？

来源：中科路1号发布时间：2023-08-09 16:37:45 阅读量：1333

需要 1000 个以上 H100 或 A100 的公司有：
训练 LLM 的创业公司：OpenAI (通过 Azure), Anthropic, Inflection (通过 Azure 和 CoreWeave), Mistral AI
云服务提供商：Azure、GCP、AWS、Oracle
更大的私有云：例如 CoreWeave、Lambda
其他大公司：特斯拉
需要 100 个以上 H100 或 A100 的公司：对开源模型进行大量微调的公司。

8-GPU HGX H100 SXM 是 LLM 训练和推理最快的，也是大家最需要的。训练 LLM 最常需要的是 H100s with 3.2Tb/s InfiniBand。对于训练 LLM，创业公司倾向于使用 H100，对于推理，他们更关注的是每美元的性能，H100 普遍受到青睐。

对于训练 LLM，大家更关注内存带宽、FLOPS、缓存和缓存延迟、FP8 计算等附加功能、计算性能（与 cuda 核心数量相关）、互连速度（例如 InfiniBand）。H100 比 A100 更受青睐，部分原因是缓存延迟较低和 FP8 计算等。

训练和运行 LLM 时，除了 GPU 成本，系统 RAM 和 NVMe SSD 价格昂贵，InfiniBand 网络成本高昂。运行集群的总成本的 10-15% 可能用于电力和托管（电力、数据中心建筑成本、土地成本、员工），分别占比大约为电力 5-8%，托管 5-10%。

为什么 LLM 公司不买 AMD 的 GPU？理论上，一家公司可以购买一堆 AMD GPU，但要让一切正常运转需要时间。开发时间（即使只有 2 个月）可能意味着比竞争对手更晚进入市场。所以 CUDA 现在是 NVIDIA 的护城河。没有人愿意冒险部署 10,000 个 AMD GPU，这几乎是 3 亿美元的投资。

H100 比 A100 快多少？16-bit 推理速度提高约 3.5 倍，16-bit 训练速度提高约 2.3 倍。

市场需要多少个 GPU？
GPT-4 可能在 10,000 到 25,000 个 A100 上进行的训练
Meta 拥有约 21,000 个 A100，Tesla 拥有约 7,000 个 A100，Stability AI 拥有约 5,000 个 A100
Falcon-40B 在 384 个 A100 上进行了训练
Inflection 在其 GPT-3.5 等效模型中使用了 3,500 个 H100
根据 Elon 的说法，GPT-5 可能需要 30k-50k H100
GCP 拥有大约 25,000 个 H100， Azure 可能有 10k-40k H100， Oracle 应该类似。 Azure 的大部分 GPU 都将流向 OpenAI。
CoreWeave 的数量约为 35,000-40,000 台 H100 - 不是现货，而是预订的

各大公司想要多少个 H100？
OpenAI 需要 50k 个，Inflection 要 22k 个，Meta 是 25k（也有人说 Meta 想要 100k 或更多）
云厂商每个需要 30k 个（Azure、Google Cloud、AWS 以及 Oracle）
Lambda 和 CoreWeave 以及其他私有云可能总共需要 100k 个
Anthropic、Helsing、Mistral、Character，每个可能要 10k 个
这达到了大约 432k 个 H100，以每块约 3.5 万美元计算，GPU 的价值约为 150 亿美元。这还不包括像字节跳动（TikTok）、百度和腾讯这样需要大量 H800 的中国公司。
还有一些金融公司从数百台 A100 或 H100 开始进行部署，然后扩展到数千台 A/H100：例如 Jane Street、JP Morgan、Two Sigma、Citadel。

如何选择云厂商？
Oracle 不如三大云可靠，但会提供更多的技术支持帮助时间
AWS 和 Google Cloud 采用 InfiniBand 的速度较慢
Azure 的 H100 大部分都转向 OpenAI，GCP 正在努力获取 H100
有人猜测，英伟达似乎倾向于为机器学习芯片上没有竞争关系的云厂商提供更多的显卡。而由于三大云公司都在开发机器学习芯片，甚至来自 AWS 和谷歌的 Nvidia 替代产品已经可用，这可能导致 Nvidia 给 Oracle 更多的 GPU。
A100 在 aws/azure 上比在 gcp 上贵得多
Azure、CoreWeave 和 Lambda 都使用 InfiniBand。Oracle 拥有良好的网络，速度为 3200 Gbps，但它是以太网而不是 InfiniBand，对于高参数计数 LLM 训练等用例，以太网比 IB 慢 15-20% 左右。AWS 和 GCP 的网络不太好。

大家在使用什么云？
OpenAI: Azure
Inflection: Azure and CoreWeave
Anthropic: AWS and Google Cloud
Cohere: AWS
Hugging Face: AWS
Stability AI: AWS
Character.ai: Google Cloud
X.ai: Oracle
Nvidia: Azure

上一篇：数据中心CPU芯片，ARM可堪重负？

下一篇：AI服务器五大硬件拆解分析

推荐阅读

AMD 9950X 4U机架式工作站工业设计 3D建模等设计师首选

AMD 9950X 塔式工作站工业设计 3D建模等设计师首选

Precision 3680 塔式工作站的视图

移除R750xa BOSS S2 模块

最新文章

2025年4月针对windows10-11最近大范围的出现蓝屏反复重启假死的一些简单的解决办法

一文读懂虚拟 GPU（vGPU）技术

AMD 9950X 4U机架式工作站工业设计 3D建模等设计师首选

AMD 9950X 塔式工作站工业设计 3D建模等设计师首选

服务器硬盘与背板、阵列卡的“复杂”关系

AMD锐龙9950X首发评测：桌面旗舰处理器对位，性能稳压14900K一头

热门阅读

DELL R740服务器系统安装详细过程

用于替代英伟达A100的A800芯片是什么？二者对比分析

如何在 Dell PowerEdge 服务器上安装操作系统？（操作系统部署）

升级CPU开不了机？别急，一步步来解决！

装solidworks电脑需要什么配置(安装solidworks电脑配置)

入门级存储首选，PowerVault ME5性能实测！

随机文章

如何鉴别服务器及配件的真伪新旧

入门级存储的黄金标准再更新，PowerVault ME5来了！

PowerEdge R750完整性能测试来了！

PowerEdge R7525 机架式服务器

NIDAO共享云平台（一）

服务器机箱状态指示灯和硬盘托架LED

热评文章

如何鉴别服务器及配件的真伪新旧

新品｜戴尔首款基于PPDM的备份一体机

什么是GPU服务器？如何正确选择？

服务器入侵排查11步

入门级存储的黄金标准再更新，PowerVault ME5来了！

入门级存储首选，PowerVault ME5性能实测！

网站地图
沪ICP备19040636号-1

Catfish(鲶鱼) Blog V 4.7.3