最近,NVIDIA发布了CUDA开发环境的最新版本,CUDA 11.4。
这个版本包括GPU加速库、调试和优化工具、编程语言增强,以及一个运行时库,用于在x86、Arm和POWER等主要CPU体系结构的GPU上构建和部署应用程序。
CUDA 11.4专注于增强CUDA应用程序的编程模型和性能。CUDA继续推动GPU加速的边界,并为HPC、图形、CAE应用、AI和深度学习、汽车、医疗保健和数据科学等新应用奠定基础。
CUDA图形
多进程服务 (MPS)
形式化异步数据移动
> C++语言支持–CUDA
> 编译器增强
> CUDA驱动增强
CUDA 11.4附带了R470驱动程序,这是一个长期支持分支。GPUDirect RDMA和GPUDirect技术存储(GDS)现在是CUDA驱动程序和工具包的一部分。这简化了工作流程,并使我们的开发人员能够利用这些技术,而不需要单独安装额外的包。
该驱动程序为最近发布的NVIDIA A30 GPU提供了新的MIG配置,从而使每片MIG的内存翻倍。这使得A30 GPU上各种工作负载的峰值性能更高,特别是对于AI推理工作负载。
NVIDIA正是看到了这些问题,针对性地推出了教育领域的虚拟GPU解决方案。
NVIDIA 虚拟GPU能够实现应用程序、桌面和工作站虚拟化,以更低成本且更高效的方式让用户能够随时随地通过任意设备使用所有应用程序。
复制下方链接,即可下载CUDA 11.4:
https://developer.nvidia.com/cuda-downloads
虚拟化GPU方案结合以下三款服务器工作站几乎可以满足绝大多数的应用需求!
DELL R740服务器▼▼▼
同时,随着AI产业化不断深入,推理计算需求增速明显。戴尔易安信R740服务器也在AI推理计算场景中广泛采用,2U机箱可以支持8张T4或P4 GPU。R740提供多矢量散热技术,可针对不同GPU卡运行工作负载智能调节风扇转速。
DELL R940XA服务器▼▼▼
当前很多复杂的AI应用场景,往往使用多种算法的集成学习,以达到更好的模型精度,解决小数据样本下的机器学习,比如工业产品外观缺陷检测。而不同算法可能会选择不同的计算介质,比如深度学习选择GPU,经典机器学习使用CPU。此时,戴尔易安信R940xa四路计算加速服务器,可以提供CPU与GPU 1:1的计算配比,帮助用户应对复杂集成学习环境下模型训练加速。
DELL T7920工作站▼▼▼
为AI就绪的戴尔Precision 7920塔式工作站具有新一代双路性能,能快速有效地运行各种复杂和严苛的应用程序。搭载全新双英特尔®至强®处理器可扩展系列,处理器性能提高42%,在定制双处理器时每个处理器可配高达28个内核或总共56个内核,可实现强大通用计算能力,可轻松应对大型数据分析任务。同时它具备非常先进的GPU引擎,可支持最多3张NVIDIA® Quadro GP100显卡,从而实现高达60TF单精度深度学习计算能力和高达15TF双精度计算能力,能够满足虚拟现实工作流程等复杂项目需求。
*本文部分内容转载自丽台科技