需要 1000 个以上 H100 或 A100 的公司有:
训练 LLM 的创业公司:OpenAI (通过 Azure), Anthropic, Inflection (通过 Azure 和 CoreWeave), Mistral AI
云服务提供商:Azure、GCP、AWS、Oracle
更大的私有云:例如 CoreWeave、Lambda
其他大公司:特斯拉
需要 100 个以上 H100 或 A100 的公司:对开源模型进行大量微调的公司。
8-GPU HGX H100 SXM 是 LLM 训练和推理最快的,也是大家最需要的。训练 LLM 最常需要的是 H100s with 3.2Tb/s InfiniBand。对于训练 LLM,创业公司倾向于使用 H100,对于推理,他们更关注的是每美元的性能,H100 普遍受到青睐。
对于训练 LLM,大家更关注内存带宽、FLOPS、缓存和缓存延迟、FP8 计算等附加功能、计算性能(与 cuda 核心数量相关)、互连速度(例如 InfiniBand)。H100 比 A100 更受青睐,部分原因是缓存延迟较低和 FP8 计算等。
训练和运行 LLM 时,除了 GPU 成本,系统 RAM 和 NVMe SSD 价格昂贵,InfiniBand 网络成本高昂。运行集群的总成本的 10-15% 可能用于电力和托管(电力、数据中心建筑成本、土地成本、员工),分别占比大约为电力 5-8%,托管 5-10%。
为什么 LLM 公司不买 AMD 的 GPU?理论上,一家公司可以购买一堆 AMD GPU,但要让一切正常运转需要时间。开发时间(即使只有 2 个月)可能意味着比竞争对手更晚进入市场。所以 CUDA 现在是 NVIDIA 的护城河。没有人愿意冒险部署 10,000 个 AMD GPU,这几乎是 3 亿美元的投资。
H100 比 A100 快多少?16-bit 推理速度提高约 3.5 倍,16-bit 训练速度提高约 2.3 倍。
市场需要多少个 GPU?
GPT-4 可能在 10,000 到 25,000 个 A100 上进行的训练
Meta 拥有约 21,000 个 A100,Tesla 拥有约 7,000 个 A100,Stability AI 拥有约 5,000 个 A100
Falcon-40B 在 384 个 A100 上进行了训练
Inflection 在其 GPT-3.5 等效模型中使用了 3,500 个 H100
根据 Elon 的说法,GPT-5 可能需要 30k-50k H100
GCP 拥有大约 25,000 个 H100, Azure 可能有 10k-40k H100, Oracle 应该类似。 Azure 的大部分 GPU 都将流向 OpenAI。
CoreWeave 的数量约为 35,000-40,000 台 H100 - 不是现货,而是预订的
各大公司想要多少个 H100?
OpenAI 需要 50k 个,Inflection 要 22k 个,Meta 是 25k(也有人说 Meta 想要 100k 或更多)
云厂商每个需要 30k 个(Azure、Google Cloud、AWS 以及 Oracle)
Lambda 和 CoreWeave 以及其他私有云可能总共需要 100k 个
Anthropic、Helsing、Mistral、Character,每个可能要 10k 个
这达到了大约 432k 个 H100,以每块约 3.5 万美元计算,GPU 的价值约为 150 亿美元。这还不包括像字节跳动(TikTok)、百度和腾讯这样需要大量 H800 的中国公司。
还有一些金融公司从数百台 A100 或 H100 开始进行部署,然后扩展到数千台 A/H100:例如 Jane Street、JP Morgan、Two Sigma、Citadel。
如何选择云厂商?
Oracle 不如三大云可靠,但会提供更多的技术支持帮助时间
AWS 和 Google Cloud 采用 InfiniBand 的速度较慢
Azure 的 H100 大部分都转向 OpenAI,GCP 正在努力获取 H100
有人猜测,英伟达似乎倾向于为机器学习芯片上没有竞争关系的云厂商提供更多的显卡。 而由于三大云公司都在开发机器学习芯片,甚至来自 AWS 和谷歌的 Nvidia 替代产品已经可用,这可能导致 Nvidia 给 Oracle 更多的 GPU。
A100 在 aws/azure 上比在 gcp 上贵得多
Azure、CoreWeave 和 Lambda 都使用 InfiniBand。Oracle 拥有良好的网络,速度为 3200 Gbps,但它是以太网而不是 InfiniBand,对于高参数计数 LLM 训练等用例, 以太网比 IB 慢 15-20% 左右。AWS 和 GCP 的网络不太好。
大家在使用什么云?
OpenAI: Azure
Inflection: Azure and CoreWeave
Anthropic: AWS and Google Cloud
Cohere: AWS
Hugging Face: AWS
Stability AI: AWS
Character.ai: Google Cloud
X.ai: Oracle
Nvidia: Azure