11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享。快來(lái)騰訊云選購(gòu)吧!
在過(guò)去的一兩年中,Transformer架構(gòu)不斷面臨來(lái)自新興架構(gòu)的挑戰(zhàn)。在眾多非Transformer架構(gòu)中,Mamba無(wú)疑是聲量較大且后續(xù)發(fā)展較好的一個(gè)。通過(guò)合理的設(shè)計(jì),Transformer強(qiáng)大的性能可以與Mamba在長(zhǎng)上下文和效率上的優(yōu)勢(shì)整合到一起,為大型語(yǔ)言模型和大型多模態(tài)模型帶來(lái)新的可能性。
浙大、騰訊優(yōu)圖、華中科技大學(xué)的團(tuán)隊(duì),提出輕量化MobileMamba!既良好地平衡了效率與效果,推理速度遠(yuǎn)超現(xiàn)有基于Mamba的模型。輕量化模型研究的主陣地都在CNN和Transformer的設(shè)計(jì)。MobileMamba通過(guò)在不同F(xiàn)LOPs大小的模型上采用訓(xùn)練和測(cè)試策略,顯著提升了性能和效率。
【新智元導(dǎo)讀】最近,7B小模型又成為了AI巨頭們競(jìng)相追趕的潮流。繼谷歌的Gemma27B后,Mistral今天又發(fā)布了兩個(gè)7B模型,分別是針對(duì)STEM學(xué)科的Mathstral,以及使用Mamaba架構(gòu)的代碼模型CodestralMamba。面對(duì)網(wǎng)友催更c(diǎn)odestralmamba,ollama也非常給力地表示:「已經(jīng)在弄了,稍安勿躁。
【新智元導(dǎo)讀】在開(kāi)源社區(qū)引起「海嘯」的Mamba架構(gòu),再次卷土重來(lái)!這次,Mamba-2順利拿下ICML。通過(guò)統(tǒng)一SSM和注意力機(jī)制,Transformer和SSM直接成了「一家親」,Mamba-2這是要一統(tǒng)江湖了?年前,Mamba被頂會(huì)ICLR拒稿的消息曾引起軒然大波。是不是可以讓SSD利用H100的新特性,讓SSM在2-4K序列長(zhǎng)度的大規(guī)模預(yù)訓(xùn)練中,比Transformer還快?推理優(yōu)化:有許多針對(duì)Transformers的優(yōu)化方法,特別是處理KV緩存。
來(lái)自倫敦帝國(guó)理工學(xué)院和戴爾的研究團(tuán)隊(duì)推出了StyleMamba,這是一種有效的框架,用于轉(zhuǎn)移圖片風(fēng)格,通過(guò)使用文本來(lái)指導(dǎo)風(fēng)格化過(guò)程,同時(shí)保持原始圖像內(nèi)容。當(dāng)前文本驅(qū)動(dòng)風(fēng)格化技術(shù)的計(jì)算需求和訓(xùn)效率低下的問(wèn)題在這個(gè)引入中得到了解決。StyleMamba在各種應(yīng)用和媒體格式上都表現(xiàn)出多功能性和適應(yīng)性,包括多種風(fēng)格轉(zhuǎn)移任務(wù)和視頻風(fēng)格轉(zhuǎn)移。
來(lái)自南京大學(xué)、上海人工智能實(shí)驗(yàn)室、復(fù)旦大學(xué)、浙江大學(xué)的研究隊(duì)發(fā)布了一項(xiàng)關(guān)于視頻理解的開(kāi)創(chuàng)性工作。該研究全面審視了Mamba模型在建模中的多重角色,提出了針對(duì)14種模型/模塊的VideoMambaSuite,并對(duì)其在12項(xiàng)視頻理解任務(wù)中進(jìn)行了深估。綜合實(shí)驗(yàn)結(jié)果顯示,Mamba模型在視頻理解領(lǐng)域具潛在的優(yōu)勢(shì)和多樣化的角色,為未來(lái)視頻理解研究提供了有力的推動(dòng)和參考價(jià)值。
歡迎來(lái)到【今日AI】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開(kāi)發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
AI21發(fā)布了世界首個(gè)Mamba的生產(chǎn)級(jí)模型:Jamba。這個(gè)模型采用了開(kāi)創(chuàng)性的SSM-Transformer架構(gòu),具有52B參數(shù),其中12B在生成時(shí)處于活動(dòng)狀態(tài)。這意味著Jamba模型在處理需要理解大量文本和復(fù)雜依賴關(guān)系的任務(wù)時(shí),既能保持高效率,又不會(huì)犧牲性能或精度。
Mamba架構(gòu)論文因在ICLR2024評(píng)審中得到低分引起關(guān)注。該架構(gòu)去年底由CMU和普林斯頓的研究者提出,被認(rèn)為有顛覆Transformer的潛力。在這個(gè)過(guò)程中,LeCun的經(jīng)歷成為引發(fā)討論的契機(jī),引導(dǎo)學(xué)術(shù)界關(guān)注同行評(píng)審制度的合理性和公正性。
基于Mamba的創(chuàng)新正不斷涌現(xiàn),但原論文卻被ICLR放到了「待定區(qū)」。2023年,Transformer在AI大模型領(lǐng)域的統(tǒng)治地位被撼動(dòng)了。無(wú)論Mamba最終能否被ICLR接收,它都已經(jīng)成為一份頗具影響力的工作,也讓社區(qū)看到了沖破Transformer桎梏的希望,為超越傳統(tǒng)Transformer模型的探索注入了新的活力。