高性能计算平台
本文最后更新于 2024年1月27日 下午
高性能计算平台
测试和评价
测试理论
浮点运算
高斯消元
Linpack
Linpack是国际上使用最广泛的测试高性能计算机系统浮点性能的基准测试。通过对高性能计算机采用高斯消元法求解一元 N次稠密线性代数方程组的测试,评价高性能计算机的浮点计算性能。Linpack的结果按每秒浮点运算次数(flops)表示。
Linpack测试包括三类,Linpack100、Linpack1000和HPL(High-Performance Linpack)。Linpack100求解规模为100阶的稠密线性代数方程组,它只允许采用编译优化选项进行优化,不得更改代码,甚至代码中的注释也不得修改。Linpack1000要求求解规模为1000阶的线性代数方程组,达到指定的精度要求,可以在不改变计算量的前提下做算法和代码上做优化。HPL即High Performance Linpack,也叫高度并行计算测试,它对数组大小N没有限制,求解问题的规模可以改变,除基本算法(计算量)不可改变外,可以采用其它任何优化方法。前两种测试运行规模较小,已不是很适合现代计算机的发展,因此现在使用较多的测试标准为HPL,而且阶次\(N\)也是Linpack测试必须指明的参数。
HPL是针对现代并行计算机提出的测试方式。用户在不修改任意测试程序的基础上,可以调节问题规模大小、使用到的CPU数目、使用各种优化方法等来执行该测试程序,以获取最佳的性能。HPL采用高斯消元法求解线性方程组。当求解问题规模为\(N\)时,浮点运算次数为:
\[\frac{2}{3}\times N^3-2 \times N^2\]
峰值计算速度\(R_{peak}\)则表示为:
\[R_{peak}=\frac{\frac{2}{3}\times N^3-2 \times N^2}{T}\]
其中\(T\)是计算时间。
测试结果以浮点运算每秒(Flops)给出。
评价参数
根据中国计算力排行榜(2022年中国高性能计算机性能TOP100排行榜详细信息 (hpc100.cn))和世界Top500排行榜(https://www.top500.org/lists/top500),评测参数包括如下:持续运行最大性能 \(R_{max}\) 和峰值性能 \(R_{peak}\).
持续运行最大性能通过运行HPL测试得到。该测试的任务是解一个大规模的密集随机矩阵构成的线性方程组,限定使用LU分解算法,限定使用双精度,限定误差上限,不得使用迭代来减小误差。
峰值性能又称为理论性能,其性能等于所有运算单元双精度浮点运算能力的和,简单地说就是正比于堆的机器数量。
数据指标
下表是2022年11月TOP500的计算机
Rank | System | Cores | \(R_{max}\) (PFlop/s) | \(R_{peak}\) (PFlop/s) | Power (kW) |
---|---|---|---|---|---|
1 | Frontier - HPE Cray EX235a, AMD Optimized 3rd Generation EPYC 64C 2GHz, AMD Instinct MI250X, Slingshot-11,HPE DOE/SC/Oak Ridge National Laboratory United States | 8,730,112 | 1,102.00 | 1,685.65 | 21,100 |
2 | Supercomputer Fugaku - Supercomputer Fugaku, A64FX 48C 2.2GHz, Tofu interconnect D,Fujitsu RIKEN Center for Computational Science Japan | 7,630,848 | 442.01 | 537.21 | 29,899 |
3 | LUMI - HPE Cray EX235a, AMD Optimized 3rd Generation EPYC 64C 2GHz, AMD Instinct MI250X, Slingshot-11,HPE EuroHPC/CSC Finland | 2,220,288 | 309.10 | 428.70 | 6,016 |
4 | Leonardo - BullSequana XH2000, Xeon Platinum 8358 32C 2.6GHz, NVIDIA A100 SXM4 64 GB, Quad-rail NVIDIA HDR100 Infiniband,Atos EuroHPC/CINECA Italy | 1,463,616 | 174.70 | 255.75 | 5,610 |