華為AI算法團(tuán)隊(duì)在人工智能領(lǐng)域取得重大進(jìn)展,成功開發(fā)出創(chuàng)新的大模型KV Cache壓縮算法“RazorAttention”。
該算法表現(xiàn)出色,可節(jié)省高達(dá)70%的大模型推理內(nèi)存占用,為AI大模型的高效運(yùn)行奠定基礎(chǔ)。
RazorAttention算法已發(fā)表論文,并被國際頂級(jí)深度學(xué)習(xí)會(huì)議ICLR 2025收錄。華為指出,該算法是業(yè)界首次基于Attention可解釋性開發(fā)的離線靜態(tài)KV Cache壓縮算法。
通過檢索頭機(jī)制,RazorAttention算法確保上下文中的關(guān)鍵信息不丟失,實(shí)現(xiàn)了高精度(誤差低于1%)和高效壓縮。其壓縮率可達(dá)70%,顯著降低了AI大模型推理成本。
目前,RazorAttention算法已集成至?xí)N騰MindIE/MindStudio產(chǎn)品中,支持主流8K~1M長(zhǎng)序列KV Cache壓縮,并可在32K以上場(chǎng)景中提升20%的吞吐量。
(舉報(bào))