运行Google Cloud的人可以看到HPC的潮流在发生变化,随着时间的推移,更多的HPC工作负载很有可能会转移到云建设者身上,因为它们的规模越来越决定未来的芯片和系统设计以及进程的经济性。
谷歌也知道这一点,它需要做更多的工作,以从其更大的竞争对手(AWS和微软Azure)那里夺取更多的市场份额。因此,该公司推出了一个新的开源工具包,帮助高性能计算公司构建可重复且灵活的模拟和建模集群。
该系统软件被称为“云高性能计算工具包”(Cloud HPC Toolkit),具有模块化设计,允许用户创建从简单集群到高级集群的一切,这些集群可以受益于云根据不断变化的需求轻松分割分类资源的能力,即所谓的可组合性在高性能计算领域开始获得一些吸引力。
以下是云HPC工具包的组件:
谷歌云认为,大多数用户都希望从使用该工具包的几个预定义的基础设施和软件配置蓝图开始,这些蓝图对于HPC环境非常方便。但对于那些有自己配置偏好的人,可以通过更改配置文件中的几行文字来修改这些蓝图。
这些蓝图支持创建HPC环境所需的各种构建块,从计算和存储到网络和调度程序。在计算端,这包括谷歌云的所有虚拟机、基于GPU的实例以及基于Red Hat Enterprise Linux的CentOS变体的HPC虚拟机镜像。在存储方面,该工具包支持Intel的DAOS系统和DDN基于Lustre的EXAScaler系统,以及谷歌云上的文件存储、本地SSD和持久存储。此外,可以使用谷歌云的放置策略将蓝图配置为在100 Gb/s的网络上运行,以降低虚拟机之间的延迟。
然而,目前工具箱上只有一种调度器选择:Slurm。考虑到谷歌云目前支持Altair的PBS Pro和Grid Engine调度程序以及IBM的Spectrum LSF和Slurm,Cloud HPC Toolkit最终添加这些工具是合情合理的。
英特尔和AMD都支持Cloud HPC Toolkit,但前者目前正努力追赶后者,以制造更快更好的处理器,特别渴望利用谷歌云最新的HPC产品,展示这家半导体巨头在软件方面不断增长的投资,尤其是在HPC方面。
谷歌云新工具包的蓝图之一是一个预定义的硬件和软件配置,用于模拟和建模英特尔自身的工作负载,该配置是在英特尔Select Solutions品牌下推广的。无论谷歌云和英特尔在幕后发生了什么,云建设者都确保将英特尔的模拟和建模蓝图作为唯一的详细示例进行推广。
英特尔仿真与建模蓝图的一个关键部分是该公司的oneAPI工具包,这是一种跨平台并行编程模型,旨在简化各种计算引擎的开发,包括英特尔竞争对手的引擎。
在一份声明中,英特尔表示,访问oneAPI及其专注于HPC的分支可以帮助优化模拟和建模工作负载的性能,方法是缩短编译时间,加快结果,并使用户能够利用英特尔和竞争对手提供的使用SYCL的芯片——SYCL是免版税的,支持oneAPI数据并行C++语言的跨架构编程抽象层。
英特尔及其竞争对手知道,半导体行业的真正黄金在于云建设者和超大规模厂商,因此,如果在云世界中看到越来越多的这类HPC软件发布,人们不会感到惊讶——英特尔兜售oneAPI,AMD推动其开放ROCm平台,而Nvidia找到了扩展软件Hydra(即CUDA)的新方法。