站長之家(ChinaZ.com)8月8日 消息:清華大學計算機系 PACMAN 實驗室發(fā)布了一種稀疏大模型訓練系統(tǒng) SmartMoE,該系統(tǒng)支持用戶一鍵實現(xiàn) Mixture-of-Experts(MoE)模型的分布式訓練,并通過自動搜索并行策略來提高訓練性能。
論文地址:https://www.usenix.org/system/files/atc23-zhai.pdf
項目地址:https://github.com/zms1999/SmartMoE
MoE 是一種模型稀疏化技術,通過將小模型轉(zhuǎn)化為多個稀疏激活的小模型來擴展模型參數(shù)量。然而,傳統(tǒng)的專家并行技術在訓練 MoE 模型時存在性能問題,因為稀疏激活模式導致節(jié)點間不規(guī)則的 all-to-all 通信增加延遲和計算負載不均。
為了解決這些問題,SmartMoE 系統(tǒng)設計了專家放置策略和自動并行算法。通過對常用并行策略的支持和動態(tài)負載均衡,SmartMoE 系統(tǒng)在性能測試中表現(xiàn)出較高的加速比。
該系統(tǒng)的特點包括:
支持常用并行策略:SmartMoE 系統(tǒng)對數(shù)據(jù)并行、流水線并行、模型并行和專家并行等四種并行策略進行了全面的支持,并允許用戶任意組合這些策略。
專家放置策略:為了處理 MoE 模型的動態(tài)計算負載,SmartMoE 系統(tǒng)設計了專家放置策略,根據(jù)當前負載調(diào)整專家的放置順序,實現(xiàn)節(jié)點間的負載均衡。
兩階段自動并行算法:為了提高 MoE 模型復雜混合并行策略的易用性,SmartMoE 系統(tǒng)設計了一套輕量級且有效的兩階段自動并行算法。這個算法將自動并行搜索過程分為訓練開始前的搜索和訓練過程中的動態(tài)調(diào)整兩個階段,以減少搜索的開銷。
高性能:在性能測試中,SmartMoE 在不同模型結構、集群環(huán)境和規(guī)模下都表現(xiàn)出優(yōu)異的性能。相較于之前的 FasterMoE 系統(tǒng),SmartMoE 能夠?qū)崿F(xiàn)高達1.88倍的加速比。
總之,SmartMoE 是一種可以一鍵實現(xiàn)高性能 MoE 稀疏大模型分布式訓練的系統(tǒng),具有支持多種并行策略、專家放置策略和兩階段自動并行算法的特點。通過這些特點,SmartMoE 系統(tǒng)能夠提高 MoE 模型的易用性和訓練性能,助力 MoE 大模型的發(fā)展。
(舉報)