近日,中國聯(lián)通持續(xù)技術(shù)攻堅,依托元景大模型MaaS平臺成功搭建“大規(guī)模專家并行” 推理集群,實現(xiàn)DeepSeek MoE 大模型在多節(jié)點間的超有效集群推理,單卡吞吐提升 3 倍,解碼時延降低 50%。這一成果不僅為人工智能技術(shù)的創(chuàng)新發(fā)展提供了強大助力,也讓各行業(yè)以更有效率應(yīng)用 AI 技術(shù),加速推動千行百業(yè)的數(shù)字化轉(zhuǎn)型。
伴隨大模型MoE結(jié)構(gòu)重大技術(shù)革新,以往少量“全能型”專家的模式逐漸被取代,大量“??菩汀毙<抑饾u成為主流。這一轉(zhuǎn)變,極大地提升了模型的針對性和精細(xì)化程度,使得模型效果顯著改善。
推理應(yīng)用在各行業(yè)的落地隨之全面加速,市場對于推理服務(wù)的需求呈井噴式增長,Tokens 處理量的需求與日俱增,這對推理系統(tǒng)的性能提出了更高的要求。為應(yīng)對這一挑戰(zhàn),大規(guī)模專家并行推理技術(shù)應(yīng)運而生,為大模型推理的加速規(guī)模應(yīng)用提供了強大的技術(shù)支撐。
聯(lián)通元景大模型與昇騰深度合作,圍繞大規(guī)模專家并行推理技術(shù)展開全方位創(chuàng)新,將 DeepSeek 671B滿血版大模型的數(shù)百個“專科型” 小專家按特出方式分布到不同的NPU上,使得單卡權(quán)重占用顯存降低 75%,權(quán)重加載耗時大幅減少,可用于數(shù)據(jù)計算的顯存顯著增加。
在通信環(huán)節(jié),雙方對集群跨機通信方案進(jìn)行深度優(yōu)化,通過引入先進(jìn)計算與通信并行算法,整體通信效率提升40%。此外,雙方聯(lián)合創(chuàng)新多級負(fù)載均衡算法,準(zhǔn)確識別并均衡各NPU 的負(fù)載,將卡間負(fù)載差異成功控制在 10% 以下,有效提升系統(tǒng)吞吐和計算資源利用率。
聯(lián)通元景大模型MaaS平臺結(jié)合大規(guī)模專家并行推理集群系統(tǒng),基于DeepSeek 671B 滿血版大模型持續(xù)進(jìn)行針對性推理優(yōu)化創(chuàng)新,打造高可靠、高性能、易運維推理服務(wù)。
圍繞高可靠
依托實例內(nèi)和實例間的多級容災(zāi)機制,保障業(yè)務(wù)連續(xù)性,提供長穩(wěn)推理服務(wù)。圍繞高性能,進(jìn)行高并發(fā)請求調(diào)度、管理、轉(zhuǎn)發(fā)等,打造整個集群的有效數(shù)據(jù)請求管理入口。
圍繞易運維
進(jìn)行集群內(nèi)推理業(yè)務(wù)狀態(tài)監(jiān)控、以及PD身份和資源管理與決策等,打造整個推理集群的狀態(tài)監(jiān)控器和決策大腦,持續(xù)提升大規(guī)模專家并行推理集群易用性。
在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的浪潮中,中國聯(lián)通始終勇立潮頭,全面發(fā)力人工智能。從精心搭建智算基礎(chǔ)設(shè)施,構(gòu)建強大算力“引擎”,到成功落地大規(guī)模專家并行推理集群,打造高性能低時延推理“中樞”,聯(lián)通元景大模型持續(xù)筑牢國產(chǎn)化智算底座,以技術(shù)需求雙輪驅(qū)動,打造“普惠速成”的元景MaaS平臺,讓人工智能更簡單,為 AI 產(chǎn)業(yè)發(fā)展注入強勁的“加速度”。
這一推理創(chuàng)新舉措必將助力各行業(yè)在復(fù)雜多變、競爭激烈的市場環(huán)境中搶占先機,以智能化驅(qū)動數(shù)字化轉(zhuǎn)型,進(jìn)而推動實體經(jīng)濟(jì)高質(zhì)量發(fā)展。
(推廣)