大模型性能升級,Meta Llama 3發(fā)布
2024年4月20日,Meta宣布推出其最新的開源大模型Meta Llama 3,該模型擁有80億和700億參數(shù)。該模型進行了功能升級,采用了改進的推理技術和新的標記器,以提高編碼效率和模型性能。
Meta Llama 3發(fā)布后,英特爾立即對該模型在英特爾至強處理器等AI硬件產(chǎn)品上的兼容性進行了測試,并公布了英特爾即將推出的至強6性能核處理器(代號Granite Rapids)運行該模型時的推理性能。
英特爾至強處理器:大模型推理的優(yōu)化平臺
英特爾至強處理器專為處理各種復雜的AI工作負載而設計。例如,第五代至強處理器配備了AMX加速引擎,顯著提高了AI推理和訓練的性能。這種處理器已廣泛應用于主流云服務提供商。
此外,至強處理器在執(zhí)行通用計算任務時具有較低的延遲,并且能夠同時處理多個工作負載。
英特爾一直在優(yōu)化其至強平臺的大模型推理性能。與Llama 2模型的軟件相比,英特爾PyTorch擴展包將延遲降低了5倍。這種優(yōu)化是通過Paged Attention算法和張量并行實現(xiàn)的,從而最大化了算力和內存帶寬的利用率。

基于AWS實例的Llama 3推理性能
Granite Rapids處理器提升推理延遲
除了上述結果,英特爾還公布了Granite Rapids處理器針對Meta Llama 3的性能測試結果。數(shù)據(jù)顯示,與第四代至強處理器相比,Granite Rapids在80億參數(shù)的Llama 3模型上的推理延遲降低了一半,并且能夠在單個雙路服務器上以低于100毫秒的token延遲運行更大參數(shù)的推理模型。

基于英特爾至強6性能核處理器(代號Granite Rapids)的Llama 3推理性能
高效的編碼語言標記器
Meta Llama 3采用了更有效的編碼語言標記器。與Llama 2進行快速比較時,在相同的提示下,Llama 3標記的token數(shù)量減少了18%。
因此,盡管Llama 3模型的參數(shù)比Llama 2更高,但在AWS m7i.metal-48xl實例上使用BF16進行推理時,整體提示的推理延遲幾乎保持一致,而Llama 3相對于Llama 2的速度提升了1.04倍。
(舉報)