對于人工智能?(AI)?而言,任何單一硬件或計(jì)算組件都無法成為適合各類工作負(fù)載的萬 能解決方案。AI?貫穿從云端到邊緣側(cè)的整個(gè)現(xiàn)代計(jì)算領(lǐng)域,為了滿足不同的?AI?用例和需求,一個(gè)可以靈活使用?CPU、GPU?和?NPU?等不同計(jì)算引擎的異構(gòu)計(jì)算平臺必不可少。
依托于?Arm CPU?的性能、能效、普及性、易于編程性和靈活性,從小型的嵌入式設(shè)備到大型的數(shù)據(jù)中心,Arm CPU?已經(jīng)為各種平臺上的?AI?加速奠定了基礎(chǔ)。
就靈活性而言,這對生態(tài)系統(tǒng)大有裨益的三個(gè)主要原因是,首先,Arm CPU?可以處理廣泛的?AI?推理用例,其中許多用例通常用于數(shù)十億臺設(shè)備,例如當(dāng)今的智能手機(jī)、云和數(shù)據(jù)中心。不僅如此,除了推理之外,CPU?還經(jīng)常用于技術(shù)棧中的數(shù)據(jù)預(yù)處理和編排等其他任務(wù)。其次,開發(fā)者能夠在更多種類的數(shù)據(jù)格式中運(yùn)行更廣泛的軟件,而無需構(gòu)建多個(gè)版本的代碼。最后,CPU?的靈活性使之成為加速?AI?工作負(fù)載的理想工具。
提供多樣性和選擇,助力行業(yè)靈活部署?AI?計(jì)算
除了?CPU?產(chǎn)品組合外,Arm?計(jì)算平臺還包括?GPU?和?NPU?等?AI?加速器技術(shù),許多市場都在將這些技術(shù)與?CPU?進(jìn)行集成。
在移動端領(lǐng)域,Arm?終端計(jì)算子系統(tǒng)?(CSS)?包含?Armv9.2 CPU?集群,并與?Arm Immortalis-G925 GPU?集成,可為各種?AI?用例提供加速功能,包括圖像分割、對象檢測、自然語言處理和語音轉(zhuǎn)文本等用例。在物聯(lián)網(wǎng)?(IoT)?方面,Arm Ethos-U85 NPU?可與需要加速?AI?性能的基于?Arm Cortex-A?的系統(tǒng)一起設(shè)計(jì),例如工廠自動化等場景。
此外,除了?Arm?自己的加速器技術(shù)外,合作伙伴借助?Arm?的?CPU?靈活定制具有差異化的芯片解決方案。例如,NVIDIA?用于?AI?基礎(chǔ)設(shè)施的?Grace Blackwell?和?Grace Hopper?超 級芯片均采用了?Arm CPU?和?NVIDIA?的?AI?加速器技術(shù),從而顯著提升?AI?性能。
NVIDIA Grace Blackwell?超 級芯片將?NVIDIA?的?Blackwell GPU?架構(gòu)與基于?Arm Neoverse?的?Grace CPU?相結(jié)合。Arm?獨(dú)特的產(chǎn)品組合使?NVIDIA?能夠進(jìn)行系統(tǒng)級設(shè)計(jì)優(yōu)化,與?NVIDIA H100 GPU?相比,其能耗降低了?25?倍,單個(gè)?GPU?性能提高了?30?倍。具體來說,得益于?Arm Neoverse?平臺的靈活性,NVIDIA?能夠?qū)崿F(xiàn)自有的高帶寬?NVLink?互連技術(shù),并提升?CPU、GPU?和內(nèi)存之間的數(shù)據(jù)帶寬和延遲。
Arm?致力于通過?Arm?全面設(shè)計(jì)生態(tài)項(xiàng)目,為整個(gè)生態(tài)系統(tǒng)注入?AI?加速的機(jī)遇。通過該生態(tài)項(xiàng)目,開發(fā)者可以更快訪問?Arm CSS?技術(shù),賦能軟硬件技術(shù)進(jìn)步,以此驅(qū)動?AI?和芯片創(chuàng)新,并加快開發(fā)和部署?AI?優(yōu)化的芯片解決方案。
Arm?架構(gòu)滿足?AI?所需的獨(dú)特靈活性
Arm CPU?設(shè)計(jì)所具有靈活性關(guān)鍵在于?Arm?領(lǐng)先的架構(gòu)。它提供了一個(gè)可以與?AI?加速器技術(shù)緊密集成的基礎(chǔ)平臺,并支持從?128?位到?2,048?位的各種向量長度,可以在許多不同的數(shù)據(jù)點(diǎn)上輕松執(zhí)行多個(gè)神經(jīng)網(wǎng)絡(luò)。
Arm?架構(gòu)的靈活性為整個(gè)芯片生態(tài)系統(tǒng)提供了多樣化的定制機(jī)會,Arm?一直致力于幫助合作伙伴更快地構(gòu)建自己的差異化芯片解決方案。這種獨(dú)特的靈活性也使?Arm?能夠不斷進(jìn)行架構(gòu)創(chuàng)新,定期推出關(guān)鍵指令和功能來加速?AI?計(jì)算,進(jìn)而惠及整個(gè)生態(tài)系統(tǒng),其中包括領(lǐng)先的芯片合作伙伴,以及在?Arm?計(jì)算平臺上構(gòu)建應(yīng)用的?2,000?多萬軟件開發(fā)者等。
這一切始于?Armv7?架構(gòu),該架構(gòu)引入了高 級單指令多數(shù)據(jù)?(SIMD)?擴(kuò)展,例如?Neon?技術(shù),這是?Arm?首 次涉足機(jī)器學(xué)習(xí)?(ML)?工作負(fù)載。在過去幾年中,該架構(gòu)不斷增強(qiáng),Armv8?中增加了向量點(diǎn)積和矩陣乘法特性,之后在?Armv9?中又引入了?Arm SVE2?和新的?Arm SME?技術(shù),為廣泛的生成式?AI?工作負(fù)載和用例提高了計(jì)算性能并降低了功耗。
與?AI?加速器技術(shù)無縫集成
Arm?是?AI?時(shí)代的計(jì)算平臺,推動了持續(xù)的架構(gòu)創(chuàng)新,以滿足速度更快、互動性更好和沉浸感更強(qiáng)的?AI?應(yīng)用的發(fā)展。Arm CPU?作為靈活處理?AI?工作負(fù)載的異構(gòu)計(jì)算方法中的一部分,可以無縫增強(qiáng)和集成?GPU?和?NPU?等?AI?加速器技術(shù)。
Arm CPU?是處理眾多?AI?推理工作負(fù)載的實(shí)用之選,憑借出色的靈活性,它能夠與加速器技術(shù)無縫集成,打造更強(qiáng)大、更高性能的?AI?功能,準(zhǔn)確滿足特定用例和計(jì)算需求。對于?Arm?的技術(shù)合作伙伴而言,出色的靈活性有助于實(shí)現(xiàn)豐富的定制選擇,使他們能夠?yàn)?AI?工作負(fù)載構(gòu)建完整的芯片解決方案。
(推廣)