今年早些时候,位于无锡的国家超级计算中心推出了基于国产自研的增强型 Sunway SW26010 Pro 处理器(拥有 384 个内核)的新型超级计算机。据 Chips and Cheese 报道,Sunway SW26010 Pro CPU 不仅比非 Pro 的 SW26010 前代处理器拥有更多的内核,而且由于微架构和系统架构的改进,其 FP64 计算吞吐量增加了四倍多。不过,虽然多核 CPU 的理论性能不错,但它也存在一些性能瓶颈。
早在 2021 年,多核 Sunway SW26010 Pro CPU 和使用该 CPU 的超级计算机就已初露端倪。现在,该公司在最近的 SC23 上展示了实际的处理器,并披露了其架构和设计的更多细节,这代表着性能上的重大飞跃。新的 CPU 预计将使中国能够建造完全基于国产处理器的高性能超级计算机。每颗 Sunway SW26010 Pro 的最大 FP64 吞吐量为 13.8 TFLOPS,非常巨大。相比之下,AMD 的 96 核 EPYC 9654 的 FP64 峰值性能约为 5.4 TFLOPS。
SW26010 Pro 是原 SW26010 的升级版,保持了前代产品的基本架构,但引入了几项关键增强功能。新型 SW26010 Pro 处理器基于全新的专有 64 位 RISC 架构,包含六个核心组(CG)和一个协议处理单元(PPU)。每个内核组集成了 64 个两宽计算处理单元 (CPE),具有 512 位矢量引擎、256 KB 数据快速本地存储(刮板缓存)和 16 KB 指令缓存;一个管理处理单元 (MPE),这是一个超标量无序内核,具有矢量引擎、32 KB/32 KB L1 指令/数据缓存和 256 KB L2 缓存;以及一个 128 位 DDR4-3200 内存接口。
MPE 和 CPE 使用基于目录的协议来实现连贯的数据共享,以减少内核之间的数据移动,并支持不同内核之间的细粒度交互,这对于不规则数据共享访问的应用尤为重要。有了 6 个 CPE,每个 SW26010 处理器就有 384 个 CPE 和 6 个 MPE,因此总共有 390 个内核和一个 PPU。
SW26010 Pro 不仅运行速度比上一代产品更快(CPE 运行速度为 2.25 GHz,MPE 运行速度为 2.10 GHz,而上一代产品的 CPE 和 MPE 运行速度均为 1.45 GHz),而且 SW26010 Pro CPU 上的新型 64 位 RISC 微体系结构经过全面改造,使处理器的 FP64 数据处理吞吐量翻了两番。为了给新内核提供更多的内存带宽,设计人员将 CPU 的内存控制器从 DDR3 改为 DDR4,从而大大提高了内存带宽和容量。现在,每个 CG 都配备了 16 GB DDR4 内存,比 SW26010 每个集群的 8 GB DDR3 内存增加了一倍。这一改进使一个 CPU 支持的内存总量从 SW26010 的 32 GB 增加到 SW26010-Pro 的 96 GB。
尽管取得了这些进步,但 SW26010 和 SW26010-Pro 在高速缓存和内存子系统方面仍存在共同的局限性。SW26010-Pro 试图通过将刮擦板容量从 SW26010 的 64 KB 提高到 256 KB 来解决缓存问题。但是,在缺乏适当二级缓存的情况下,每个 CPE 256KB 的刮擦板缓存是不够的,因此这两款处理器仍然存在很大的性能瓶颈。同时,双通道 DDR4-3200(51.2 GB/s)内存子系统也只能勉强满足 64 个内核的需求,每个内核都具有 512 位矢量 FPU,能够达到 16 FP64 FLOPS/周期。
总之,SW26010 Pro 比 SW26010 有了很大的进步,尤其是在内存容量、计算密度和整体性能方面。这些改进表明,中国在超级计算领域的实力日益增强。然而,新处理器有两个主要缺点:缓存子系统较弱(可通过软件优化来缓解,但从时间和金钱角度来看,这些优化成本较高)和内存带宽不足。因此,它能否被用来构建系统,解决复杂的实际问题,真正达到 ExaFLOPS 的性能水平,还有待观察。