奋发图强!国产自研 Sunway Pro CPU 性能突飞猛进

微信扫一扫,分享到朋友圈

奋发图强!国产自研 Sunway Pro CPU 性能突飞猛进

今年早些时候,位于无锡的国家超级计算中心推出了基于国产自研的增强型 Sunway SW26010 Pro 处理器(拥有 384 个内核)的新型超级计算机。据 Chips and Cheese 报道,Sunway SW26010 Pro CPU 不仅比非 Pro 的 SW26010 前代处理器拥有更多的内核,而且由于微架构和系统架构的改进,其 FP64 计算吞吐量增加了四倍多。不过,虽然多核 CPU 的理论性能不错,但它也存在一些性能瓶颈。

奋发图强!国产自研 Sunway Pro CPU 性能突飞猛进插图

早在 2021 年,多核 Sunway SW26010 Pro CPU 和使用该 CPU 的超级计算机就已初露端倪。现在,该公司在最近的 SC23 上展示了实际的处理器,并披露了其架构和设计的更多细节,这代表着性能上的重大飞跃。新的 CPU 预计将使中国能够建造完全基于国产处理器的高性能超级计算机。每颗 Sunway SW26010 Pro 的最大 FP64 吞吐量为 13.8 TFLOPS,非常巨大。相比之下,AMD 的 96 核 EPYC 9654 的 FP64 峰值性能约为 5.4 TFLOPS

奋发图强!国产自研 Sunway Pro CPU 性能突飞猛进插图1

SW26010 Pro 是原 SW26010 的升级版,保持了前代产品的基本架构,但引入了几项关键增强功能。新型 SW26010 Pro 处理器基于全新的专有 64 位 RISC 架构,包含六个核心组(CG)和一个协议处理单元(PPU)。每个内核组集成了 64 个两宽计算处理单元 (CPE),具有 512 位矢量引擎、256 KB 数据快速本地存储(刮板缓存)和 16 KB 指令缓存;一个管理处理单元 (MPE),这是一个超标量无序内核,具有矢量引擎、32 KB/32 KB L1 指令/数据缓存和 256 KB L2 缓存;以及一个 128 位 DDR4-3200 内存接口。

奋发图强!国产自研 Sunway Pro CPU 性能突飞猛进插图2

MPE 和 CPE 使用基于目录的协议来实现连贯的数据共享,以减少内核之间的数据移动,并支持不同内核之间的细粒度交互,这对于不规则数据共享访问的应用尤为重要。有了 6 个 CPE,每个 SW26010 处理器就有 384 个 CPE 和 6 个 MPE,因此总共有 390 个内核和一个 PPU。

SW26010 Pro 不仅运行速度比上一代产品更快(CPE 运行速度为 2.25 GHz,MPE 运行速度为 2.10 GHz,而上一代产品的 CPE 和 MPE 运行速度均为 1.45 GHz),而且 SW26010 Pro CPU 上的新型 64 位 RISC 微体系结构经过全面改造,使处理器的 FP64 数据处理吞吐量翻了两番。为了给新内核提供更多的内存带宽,设计人员将 CPU 的内存控制器从 DDR3 改为 DDR4,从而大大提高了内存带宽和容量。现在,每个 CG 都配备了 16 GB DDR4 内存,比 SW26010 每个集群的 8 GB DDR3 内存增加了一倍。这一改进使一个 CPU 支持的内存总量从 SW26010 的 32 GB 增加到 SW26010-Pro 的 96 GB。

奋发图强!国产自研 Sunway Pro CPU 性能突飞猛进插图3

尽管取得了这些进步,但 SW26010 和 SW26010-Pro 在高速缓存和内存子系统方面仍存在共同的局限性。SW26010-Pro 试图通过将刮擦板容量从 SW26010 的 64 KB 提高到 256 KB 来解决缓存问题。但是,在缺乏适当二级缓存的情况下,每个 CPE 256KB 的刮擦板缓存是不够的,因此这两款处理器仍然存在很大的性能瓶颈。同时,双通道 DDR4-3200(51.2 GB/s)内存子系统也只能勉强满足 64 个内核的需求,每个内核都具有 512 位矢量 FPU,能够达到 16 FP64 FLOPS/周期。

总之,SW26010 Pro 比 SW26010 有了很大的进步,尤其是在内存容量、计算密度和整体性能方面。这些改进表明,中国在超级计算领域的实力日益增强。然而,新处理器有两个主要缺点:缓存子系统较弱(可通过软件优化来缓解,但从时间和金钱角度来看,这些优化成本较高)和内存带宽不足。因此,它能否被用来构建系统,解决复杂的实际问题,真正达到 ExaFLOPS 的性能水平,还有待观察。

上一篇

英伟达击败台积电和英特尔 首次摘得芯片行业收入桂冠

下一篇

Chrome 将集成人工智能壁纸功能

你也可能喜欢

评论已经被关闭。

插入图片

排行榜

返回顶部