中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關鍵詞  > JetMoE-8B最新資訊  > 正文

    性能超越LLaMA2-7B!AI模型JetMoE-8B訓練成本不到10萬美元

    2024-04-17 10:18 · 稿源:站長之家

    站長之家(ChinaZ.com)4月17日 消息:JetMoE-8B是一款采用稀疏激活架構(gòu)的人工智能模型,其性能卓越且訓練成本不到10萬美元,令人驚訝的是,它的表現(xiàn)甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。

    image.png

    JetMoE-8B由24個塊組成,每個塊包含兩個MoE層:注意力頭混合(MoA)和MLP專家混合(MoE)。每個MoA和MoE層有8個專家,并且每個輸入令牌激活2個專家。這種獨特的設計使得在不犧牲性能的情況下顯著降低了計算成本。

    值得一提的是,盡管JetMoE-8B的總參數(shù)量達到80億,但由于其特殊的架構(gòu)設計,每個輸入令牌僅激活約22億參數(shù),從而大大減少了總體的計算需求。

    此外,JetMoE-8B的訓練完全依賴于公開數(shù)據(jù),并且整個訓練過程,包括代碼,都是完全開源的,這無疑為AI領域的研究和應用提供了極大的便利。

    在與Open LLM排行榜相同的評估方法下,JetMoE-8B的性能表現(xiàn)優(yōu)于LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B,這一結(jié)果無疑是對其高效性能的最好證明。

    與此同時,與具有類似訓練和推理計算的模型(如Gemma-2B)相比,JetMoE-8B展示了更優(yōu)異的表現(xiàn)。這不僅證明了其在性能上的優(yōu)勢,也展示了其在成本效益上的顯著優(yōu)勢。

    模型地址:https://huggingface.co/jetmoe/jetmoe-8b

    舉報

    • 相關推薦
    • 苦等一年 Meta終于放大招 正式發(fā)布開源大模型Llama 4

      美國科技巨擘Meta重磅推出其迄今最為強大的開源AI模型Llama4,恰逢Llama3上市一周年之際。Llama4系列采用了先進的混合專家架構(gòu),這一架構(gòu)在模型訓練及用戶查詢回答過程中展現(xiàn)出更高效率,通過將模型劃分為多個專注于特定任務的專家”子模型,實現(xiàn)精準高效的處理。Meta首席執(zhí)行官扎克伯格表示:他們的目標是建立世界領先的人工智能,將其開源,并使其普遍可用,以便世界上每個人都能受益。

    • Meta說他們的 Llama 4 偏見少了!但,“虛假對等”才是真偏見

      Meta公司稱,相比之前的版本,他們最新的人工智能模型Llama4的政治偏見更少了。其中一部分便是通過允許該模型回答更多帶有政治爭議性的問題來實現(xiàn)這一點的。下次當你使用Meta的AI產(chǎn)品時,它可能會為“通過服用馬用鎮(zhèn)靜劑來治療新冠病毒”這種觀點說好話!

    • Llama 4大模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

      被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時間,口碑急轉(zhuǎn)直下,被質(zhì)疑為刷榜作弊實際效果差、開源條件多部署門檻高是偽開源等。大模型評測平臺LMArena親自下場發(fā)文,打臉Meta提供給平臺的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術開放之間搖擺,恐將在AI競賽中進一步失去開發(fā)者支持。

    • 換個新題材,新品正式上線10天日流水突破10萬美元

      如果說最近的手游市場里什么題材最火,“罪案”和“監(jiān)獄”很可能是最值得觀察的方向之一。此前筆者在統(tǒng)計北京廠商頭部合成產(chǎn)品的時候就發(fā)現(xiàn),隨著市場競爭越來越激烈,合成游戲的劇情走向也越來越緊張刺激?!窵andsofJail」的新思路雖然證明了市場潛力,但如果想要進一步成長為頭部產(chǎn)品,很可能需要對核心玩法做出更多具有特色的創(chuàng)新。

    • 反擊DeepSeek失??!Llama 4效果不好,Meta承認有問題

      今天凌晨1點半,Meta生成式AI領導者AhmadAl-Dahle在社交平臺發(fā)布了一篇長文,對前天剛開源的Llama4質(zhì)疑進行了官方回應。Ahmad表示,Llama4一開發(fā)完就發(fā)布了,所以,不同服務中模型質(zhì)量難免會有一些差異。由于關稅大戰(zhàn)的原因,Meta的股票遭遇重創(chuàng),他們也需要一個利好消息來拉升股票,現(xiàn)在適得其反。

    • 實錘了,Llama 4重測排名掉至32名!遠不及DeepSeek和Qwen

      LMArena更新了Meta最新發(fā)布的開源大模型Llama-4-Maverick的排名,從此前的第2名,直線掉到了第32名!這也實錘了此前開發(fā)者對Meta為刷榜排名向LMArena提供了“特供版”的Llama4大模型的質(zhì)疑。開源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名為32名,遠低于Gemini2.5Pro、GPT4o、DeepSeek-V3-0324、DeepSeek-R1、Qwen2.5-Max,甚至連英偉達基于上一代Llama3.3改造的Llama-3.3-Nemotron-Super-49B-v1都不如。

    • Llama 4五大疑點曝光,逐層扒皮,全球AI進步停滯,NYU教授稱Scaling徹底結(jié)束

      令人失望的Llama4,只是前奏已。接下來我們恐將看到——全球局勢的改變,將徹底阻止AI進步!最近,一位AICEO做出長視頻,逐級對Llama4身上的六大疑點進行了扒皮。GaryMarcus正在尋找對開發(fā)更可靠替代方法有興趣的投資者。

    • 剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態(tài)巨獸搶回王座

      Llama4重磅發(fā)布了!Meta官宣開源首個原生多模態(tài)Llama4,首次采用的MoE架構(gòu),支持12種語言,首批發(fā)布一共兩款:Llama4Scout:共有1090億參數(shù),17B活躍參數(shù),16個專家,1000萬上下Llama4Maverick:共有4000億參數(shù),17B活躍參數(shù),128個專家,100萬上下文另外,2萬億參數(shù)Llama4Behemoth將在未來幾個月面世,288B活躍參數(shù),16個專家。Llama4的橫空出世,成為迄今為止開源最強,多模態(tài)能力最好的模型之一。L

    • AI驅(qū)動食品供應鏈,食品科技獨角獸GrubMarket再獲5000萬美元融資

      4 月 16 日消息,美國最 大的私營食品技術公司GrubMarket宣布獲得 5000 萬美元G輪融資。本輪融資由LibertyStreet Funds、3Spoke Capital、ROC Venture Group、Portfolia、Pegasus Tech Ventures、Joseph Stone Capital以及其他未具名的投資者參與。自成立以來,GrubMarket已完成多輪融資,融資金額達5. 5 億美元,目前估值超過 35 億美元。GrubMarket創(chuàng)始人兼首席執(zhí)行官徐敏毅表示:"過去 12 個月公司實現(xiàn)了加速增長?

    • 英偉達將首次在美制造 AI 超算、及 Blackwell 芯片

      站長之家(ChinaZ.com) 4月15日 消息:隨著 AI 行業(yè)的蓬勃發(fā)展,英偉達位于美國的人工智能芯片和超 級計算機工廠將創(chuàng)造數(shù)千個就業(yè)機會??萍季揞^英偉達(NVIDIA)宣布,其 AI 超 級計算機將完全在美國本土生產(chǎn)。在全球貿(mào)易戰(zhàn)的背景下,英偉達這一舉動是為了減少對海外市場的依賴,并促進美國國內(nèi)的生產(chǎn)。英偉達確認,他們已開始在臺積電位于美國亞利桑那州鳳凰城的工廠生產(chǎn)?