云计算、可持续性、大规模和指数级数据增长——这些曾在2022年为HPC(高性能计算)定下基调的关键创新,也将是2023年推动HPC的关键因素。
随着越来越多企业依赖HPC来加快获取成果,特别是对于他们的数据密集型应用,这个400亿美元的市场面临着挑战和机遇。
作者:Jay Boisseau博士
戴尔科技集团HPC和AI技术策略师
HPC
在2023面临的挑战
1
可持续性
随着HPC市场的增长,运行这些能源密集型基础设施所需的能耗也越来越大。为了实现可持续发展,行业领导者正在优先考虑如何减少二氧化碳排放,甚至使HPC脱碳。在总电力使用量增加的情况下,这不是一项容易的任务。
2
冷却
在接下来的几年里,我们将看到硅处理器和加速器的使用增加,它们需要更多电力,也因此产生了更多热量。作为HPC行业的领导者,我们十分关心如何冷却这些数据中心。
目前,业内正在研究创新的数据中心设计,包括模块化数据中心和主机托管。另一个重点是液冷。直接液冷提供了卓越的热管理和五倍于空气散热的冷却能力。浸入式液冷使用专用冷却液提供高性能、复杂的冷却解决方案。液冷方案正在全球范围内受到广泛关注,成为未来数据中心的必备。
3
扩展和开发大规模系统
为了满足需求,HPC行业正在开发和完善战略,从而有效地扩展和部署高效和可靠的大型系统。这是一个艰巨的任务,而且将取决于几个因素:
●加速器的规模部署和管理;
●大规模更改电源和冷却设计;
●高性能集群的开源部署,用于运行模拟、AI 和数据分析工作负载。
2023 HPC
有什么新的变化?
在HPC行业,我们正在经历我们所做的事情、做事的方式和地点发生巨大变化。以下是我们注意到的变化:
交付模式
HPC正在从一个几乎严格意义上的本地系统,转变为拥抱远程交付模型。基于服务的模型(包括IaaS/PaaS/SaaS)以及按需和订阅支付模型的巨大增长,推动了客户对托管、托管服务和云计算等HPC交付模型的兴趣。
当然,数据中心的挑战也推动了对这些替代方案的需求。包括戴尔APEX for HPC和HPC on Demand服务在内的新的解决方案,可以满足这些客户的要求和愿望。
人工智能和机器学习
人工智能/机器学习将作为HPC的重要工作负载继续增长。由于数据规模的快速增长,对能够运行大型训练模型的HPC解决方案的需求不断增加。
同时,这些模型可以补充模拟,指导目标或减少一些问题的参数空间。我们认识到需要一些工具来支持机器学习操作和数据科学管理,这些工具必须能够扩展并与HPC软件、计算和存储环境相集成。
数据处理单元
我们预计DPU的使用将会激增,但必须弄清楚哪些用例在价格性能比和性能瓦特比方面具有可量化的优势。要注意的是,需要进行更多的研究和基准比较,来帮助客户做出最佳决策。
关于DPU何时对HPC工作负载有优势的一些例子包括:
●集体作业
●通过将hypervisor转移到DPU,卸载CPU的计算负荷
●通过任务卸载改善通信。如果代码是基于任务的,用户有可能将任务转移到不太繁忙的节点上
可组合基础设施
我们注意到可组合基础设施提高资源利用方面的好处,但关于它的未来仍然具有不确定性。与DPU一样,需要更多的研究和可量化的比较,来确定可组合基础设施是否适合客户的下一个系统。
虽然特定的人工智能工作流程,需要特殊的硬件配置,而可组合的基础设施可能会消除传统架构的限制,但对于它是否可以扩展,以及投资回报率是否会通过增加灵活性和利用率来达到,还存在争议。
量子计算
我们对量子计算系统(QC)将且必须与“经典”HPC系统整合的共识日益增强。
量子计算系统目前只在某些类型的计算上有优势,因此最好作为加速器使用。在戴尔科技,我们已经开发了一个混合的经典/量子平台,利用戴尔PowerEdge服务器与Qiskit Runtime,以及IonQ Aria量子处理单元。
通过该平台,经典和量子模拟工作负载可以在企业内部执行,而量子工作负载,例如为药学开发建模的更大、更复杂的分子,可以用IonQ QPU执行。