站長之家(ChinaZ.com)4月17日 消息:JetMoE-8B是一款采用稀疏激活架構(gòu)的人工智能模型,其性能卓越且訓練成本不到10萬美元,令人驚訝的是,它的表現(xiàn)甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。
JetMoE-8B由24個塊組成,每個塊包含兩個MoE層:注意力頭混合(MoA)和MLP專家混合(MoE)。每個MoA和MoE層有8個專家,并且每個輸入令牌激活2個專家。這種獨特的設計使得在不犧牲性能的情況下顯著降低了計算成本。
值得一提的是,盡管JetMoE-8B的總參數(shù)量達到80億,但由于其特殊的架構(gòu)設計,每個輸入令牌僅激活約22億參數(shù),從而大大減少了總體的計算需求。
此外,JetMoE-8B的訓練完全依賴于公開數(shù)據(jù),并且整個訓練過程,包括代碼,都是完全開源的,這無疑為AI領域的研究和應用提供了極大的便利。
在與Open LLM排行榜相同的評估方法下,JetMoE-8B的性能表現(xiàn)優(yōu)于LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B,這一結(jié)果無疑是對其高效性能的最好證明。
與此同時,與具有類似訓練和推理計算的模型(如Gemma-2B)相比,JetMoE-8B展示了更優(yōu)異的表現(xiàn)。這不僅證明了其在性能上的優(yōu)勢,也展示了其在成本效益上的顯著優(yōu)勢。
模型地址:https://huggingface.co/jetmoe/jetmoe-8b
(舉報)