由慧與(HPE)為美國(guó)能源部旗下的國(guó)家可再生能源實(shí)驗(yàn)室(NREL)打造的 Kestrel 超級(jí)計(jì)算機(jī),其規(guī)格已正式公布。在 NREL 于去年宣布了該計(jì)劃之后,現(xiàn)在我們終于知曉它將采用 AMD 霄龍 Genoa、英特爾 Sapphire Rapids、以及英偉達(dá) H100 加速器硬件,并且能夠提供高達(dá) 44 PFLOPS 的算力。
在三家科技巨頭最新軟硬件技術(shù)的加持下,Kestrel 旨在接替現(xiàn)有的 Eagle 超算。而在最近的一次會(huì)議上,HPE 首次揭示了這套超算系統(tǒng)的硬件規(guī)格。
可知Kestrel 超算采用了標(biāo)準(zhǔn)節(jié)點(diǎn) + 加速節(jié)點(diǎn)的組合方案,具有 44 PetaFlops 的峰值性能 —— 較 Eagle 超算提升了 5.5 倍。
● 其中標(biāo)準(zhǔn)節(jié)點(diǎn)采用了英特爾最新的 Sapphire Rapids 至強(qiáng)可擴(kuò)展 CPU(本例中為 52 核 / 104 線程的 SKU)。
● 在 2304 個(gè)標(biāo)準(zhǔn)節(jié)點(diǎn)中,都使用了雙路 CPU 方案(總計(jì) 4608 顆 Sapphire Rapids-SP 處理器,239616 核 / 479232 線程)。
● 75 PB 數(shù)據(jù)存儲(chǔ)(Lustre),且 2304 個(gè)節(jié)點(diǎn)中的每一個(gè)都提供了 256GB DDR5 內(nèi)存(總計(jì) 560 PB 系統(tǒng)內(nèi)存)。
另有 132 個(gè)加速節(jié)點(diǎn):
● Kestrel 選擇了為每個(gè)節(jié)點(diǎn)配備四路基于 Hopper 圖形架構(gòu)的英偉達(dá) H100 GPU 加速卡 @ AMD 雙路 EPYC Genoa 服務(wù)器處理器組合。
● 總計(jì)有 528 塊英偉達(dá) Hopper H100 GPU 加速卡,以及 264 顆 AMD EPYC Genoa 芯片(最高 96C / 192T)。
至于加速節(jié)點(diǎn)中的確切 CPU / GPU 配置型號(hào),目前暫不得而知。若采用頂級(jí)配置方案,那 Kestrel 有望獲得總計(jì) 8921088 個(gè) CUDA 核心(H100 SXM5)+ 25344 個(gè) Zen 4 CPU 核心。
此外 Kestrel 加速節(jié)點(diǎn)還具有 42 TB 的 HBM3 高帶寬緩存 + 20 TB 系統(tǒng)內(nèi)存,輔以 8 個(gè) DAV 節(jié)點(diǎn)(其中包括多達(dá) 16 路英偉達(dá) A40 GPU 加速卡)。
所有這些都使用了 HPE 的 Slighshot Dragonfly 互連方案,以下是 HPE Slingshot 互連的一些亮點(diǎn):
● 行業(yè)領(lǐng)先的性能與可擴(kuò)展性
● 采用 100GbE 和 200GbE 高速接口
● 搭配高基數(shù)、64 端口、12.8 Tb/s 帶寬的高性能交換機(jī)
● 可擴(kuò)展至 25 萬+主機(jī)端口 / 最多 3 個(gè)躍點(diǎn)
● 創(chuàng)新的硬件擁塞管理、自適應(yīng)路由與 QoS 服務(wù)質(zhì)量控制
● 采用標(biāo)準(zhǔn)的以太網(wǎng)協(xié)議,輔以優(yōu)化的高性能計(jì)算(HPC)特性
● 鏈路級(jí)重試與低延遲前向糾錯(cuò)
● 開放且標(biāo)準(zhǔn)化的 API 管理接口
最后,盡管 Kestrel 超算的每瓦特性能為 10.4 gflops(遠(yuǎn)不及最近宣布的能效超 50 gflops/watt 的 Frontier 超級(jí)計(jì)算機(jī)),但其造價(jià)依然相當(dāng)昂貴(甚至高于 ExaFlops 系統(tǒng))。
如若一切順利,NREL 的 Kestrel 超級(jí)計(jì)算機(jī)預(yù)計(jì)可在 2024 年完成部署。
(舉報(bào))