在一年一度的超算大會上,高性能計算行業(yè)的許多參與者都在積極討論硬件、安裝、以及設計等方面的最新進展。期間,芯片巨頭英特爾也展示了自家的硬件,并披露了有關下一代 Aurora Exascale 超算的諸多細節(jié)。起初,Aurora 計劃采用英特爾的 10nm 至強(Xeon)融核(Phi)平臺,但隨著技術的飛速發(fā)展,后續(xù)該項目也經(jīng)歷了多次推倒重來。
幾年前最終敲定的方案,為 Aurora 選用了英特爾 Sapphire Rapids 處理器,特點是配備 HBM2e 高帶寬緩存。以及 Ponte Vecchio 架構的 Xe-HPC GPU 加速器,可擴展數(shù)百 PetaFLOP 到 ExaFLOP 級別的算力。
早些時候,英特爾新任 CEO 帕特·基辛格透露,Ponte Vecchio 加速器實現(xiàn)了性能的翻番,可讓建成后的 Aurora 成為一臺“2+ EF”級別的超級計算機。
該公司預計將在 2022 年之前交付機器的其余部分,并于第一季度增加主流用戶的硬件生產(chǎn),以便在上半年有更廣泛的發(fā)布。
處理器方面,Aurora 為每個單元都配備了兩塊 Sapphire Rapids CPU(簡稱 SPR)。其具有四個計算塊、DDR5、PCIe 5.0、CXL 1.1(而不是 CXL.mem),并大量借用 EMIB 技術來實現(xiàn)連接。
至于自帶的高帶寬內(nèi)存(HBM),可知英特爾為該系列 SPR 處理器選用了 8-Hi 堆棧,以提供高達 64GB 的 HBM2e 內(nèi)存。(據(jù)說英特爾打算使用四個 16GB HBM2e 堆棧來組成 64GB 內(nèi)存)
考慮到英特爾與美光之間的特殊關系,我們發(fā)現(xiàn) Micron HBM2e 的物理尺寸,正巧與 Intel 材料中給出的標示一致(而不是三星或 SK 海力士)。
當前美光提供了兩種帶有硬件 ECC 的 16GB HBM2e 產(chǎn)品,一種為每引腳 2.8 Gbps(每堆棧 358 GB/s)、另一種為每引腳 3.2 Gbps(每堆棧 410 GB/s)。
取決于英特爾使用的版本,其峰值總帶寬可介于 1.432 ~ 1.64 TB/s 之間。不過 SPR HBM 版本還會額外使用四個 Tile,并將每個 HBM 堆棧連接到一個小芯片。
由圖可知,盡管 Intel 表示 SPR+HBM 版本與普通 SPR SKU 共享插槽,但明顯還是存在不兼容的地方。這也能是一個實例,即 Aurora 超算上使用了專門的調(diào)整設計。
至于 Ponte Vecchio(Xe HPC 2-Tile / PVC),英特爾披露單個 Aurora 服務器里的每兩塊 SPR 處理器,將搭配六塊 PVC 加速器。
每個加速器都將使用內(nèi)置的新 Xe-Link 全拓撲互連協(xié)議,盡管全連接模式下支持 8 路,但 Aurora 還是相對節(jié)制了一下。
盡管英特爾尚未披露 PVC 是如何與 SPR 處理器連接的,但至少 CPU / GPU 之間采用了統(tǒng)一內(nèi)存架構設計。
英特爾補充道,每個 Ponte Vecchio 雙棧部署將具有總共 64 MB 的 L1 緩存和 408 MB 的 L2 緩存(每個堆棧具有 204 MB L2),并由 HBM2e 提供支持。
作為比較,英偉達 A100 方案具有 40MB L2 緩存、AMD Navi 21 配備了 128MB 無限緩存(Infinity Cache / 有效 L3)。
至于 AMD 為 Frontier 超算提供的 CDNA2 MI250X 加速卡,則配備了每堆棧 8MB L2 緩存(總共 16MB)。
(圖 via AnandTech)
無論采用何種方式進行切片,英特爾都在努力為 PVC 提供正確的緩存層次結構。由圖表的 4 個 HBM2e 芯片設計來看,每個 PVC 雙堆?;蚓哂懈哌_ 128GB 的 HBM2e 內(nèi)存。
更重要的是,我們還正式獲悉 Aurora 將用到多少塊 Ponte Vecchio GPU 加速卡和 Sapphire Rapids(+HBM)處理器。
早在 2019 年 11 月,當 Aurora 還僅規(guī)劃了 1 EF 算力時,就有基于 200 個機架布局的猜想 —— 簡單換算是 5000 顆 CPU + 15000 塊 GPU 加速卡,且每個 PVC 大約 66.6 TF 性能。
當時英特爾在早期芯片上展示了每張卡 40 TF 的性能,而 Aurora 2 EF 的官方參數(shù)則是 54000+ GPU / 18000+ CPU,意味每個 PVC 僅 37 TeraFlops(完全未將 CPU 性能算進去的話)。
至于 PVC 的功率,可參考額定功率為 60 MW 的 FP64 Vector(2 ExaFlops),那樣系統(tǒng)為每張卡分配的功率或為 1053 W 。若 Frontier 與 Aurora 的開銷類似,預計每個 PVC 的功率在 615 W。
最終 37 TF 的 PVC 功率為 615 W,而 MI250X 的 47.9 FP 功率僅為 560 W 。不過這里并未深入每張卡的原始性能,及其在特定用例中的特定功能
(舉報)