11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
在過去的一兩年中,Transformer架構(gòu)不斷面臨來自新興架構(gòu)的挑戰(zhàn)。在眾多非Transformer架構(gòu)中,Mamba無疑是聲量較大且后續(xù)發(fā)展較好的一個。通過合理的設(shè)計,Transformer強大的性能可以與Mamba在長上下文和效率上的優(yōu)勢整合到一起,為大型語言模型和大型多模態(tài)模型帶來新的可能性。
“MoE”加上“前所未有大規(guī)模投入生產(chǎn)環(huán)境的LightningAttention”,再加上“從框架到CUDA層面的如軟件和工程重構(gòu)”,會得到什么?一個追平了頂級模型能力、且把上下文長度提升到400萬token級別的新模型。這顯然是巨大的野心,但在如今人們都在關(guān)注大模型接下來往哪兒走的時候,非常需要這樣的野心,非常需要一個或者更多個“Transformer時刻”——在一個自己相信的路線上做到極致,把看似所有人都知道的配方,最終兌現(xiàn)出來,展示給技術(shù)社區(qū)里的人們,讓它變成某個決定性的時刻,給AI的前進再添把火。
今天凌晨3點,全球社交巨頭Meta分享了一個創(chuàng)新研究——Memorylayers。Transformer架構(gòu)的預(yù)訓(xùn)練大模型在存儲、查詢數(shù)據(jù)時,隨著參數(shù)的變大對算力的需求呈指數(shù)級增長。這樣的設(shè)計既簡化了維護流程,又提高了系統(tǒng)的靈活性和適應(yīng)性。
上海巖芯數(shù)智人工智能科技有限公司的Yan架構(gòu)大模型成功通過《生成式人工智能服務(wù)管理暫行辦法》備案,這是國內(nèi)首個非Transformer架構(gòu)大模型通過備案。Yan模型簡介Yan架構(gòu)大模型是國內(nèi)首個非Transformer架構(gòu)、非Attention機制的大模型。Yan架構(gòu)大模型的備案通過是RockAI踐行使命的重要里程碑,未來,我們期待Yan架構(gòu)大模型在更多設(shè)備單元部署應(yīng)用,讓群體智能引領(lǐng)走向通用人工智能,與合作伙伴一起,領(lǐng)先一步開拓更加廣闊的市場空間。
【新智元導(dǎo)讀】LLM訓(xùn)練速度還可以再飆升20倍!英偉達團隊祭出全新架構(gòu)歸一化Transformer,上下文越長,訓(xùn)練速度越快能維持原有精度。AI的未來,或許就此改寫......最近,英偉達團隊拋出的一枚重磅炸彈,提出了全新神經(jīng)網(wǎng)絡(luò)架構(gòu)——歸一化Transformer,基于超球面進行表示學(xué)習(xí)。下圖6展示了,注意力模塊和MLP模塊的特征學(xué)習(xí)率,應(yīng)用于MLP中間狀態(tài)的縮放因子,應(yīng)用于QK點積之前?
訓(xùn)練Transformer,用來解決132年的數(shù)學(xué)世紀難題!如何判斷一個動力系統(tǒng)是否穩(wěn)定?Meta和巴黎理工學(xué)院團隊攜手提出SymbolicTransformer,直指這一經(jīng)典難題的核心:發(fā)現(xiàn)新的全局李雅普諾夫函數(shù)。從牛頓、拉格朗日到龐加萊,無數(shù)科學(xué)家傾力研究三體問題的長期穩(wěn)定性,卻始終無法給出一個通用的判定方法。作者巴黎師范教授AmauryHayat表示,幾年前剛開始這個項目時,作為一個年輕天真?
【新智元導(dǎo)讀】隨著諾貝爾物理學(xué)獎頒給了「機器學(xué)習(xí)之父」GeoffreyHinton,另一個借鑒物理學(xué)概念的模型架構(gòu)也橫空出世——微軟清華團隊的最新架構(gòu)DifferentialTransformer,從注意力模塊入手,實現(xiàn)了Transformer的核心能力提升。隨著近些年來NLP領(lǐng)域研究的不斷深入,我們逐漸發(fā)現(xiàn),Transformer架構(gòu)中出現(xiàn)的幻覺問題,以及各種下游任務(wù)中的性能不足,都或多或少與注意力缺陷有關(guān)。他的研究興趣是大語言模型的骨干網(wǎng)絡(luò)、長序列的建模和推理,以及大語言模型在其他領(lǐng)域的應(yīng)用。
通往AGI終極之路,是什么?這世界,沒有一個完整的定義,也沒有具體的答案。此前曝出的OpenAI秘密路線圖,將通往AGI目標(biāo)劃分五級。在Yan系列智慧生態(tài)的基礎(chǔ)上,持續(xù)的群體進化將成為可能,最終繪制出「群體智能」的未來藍圖。
提示工程師RileyGoodside小哥,依然在用「Strawberry里有幾個r」折磨大模型們,GPT-4o在無限次PUA后,已經(jīng)被原地逼瘋!相比之下,Claude堅決拒絕PUA,是個大聰明。谷歌最近的論文也揭示了本質(zhì)原因:LLM沒有足夠空間,來存儲計數(shù)向量。這表明在計數(shù)任務(wù)中,我們可能需要借助于不具有相同限制的工具,例如代碼解釋器等。
Transformer八子中最年輕的AidanGomez在最新的采訪中感嘆:谷歌版的AidanGomez,是給AI領(lǐng)域帶來深遠影響的Transformer作者之一?,F(xiàn)在的AidanGomez,是估值飆升55億美元的Cohere公司的聯(lián)合創(chuàng)始人兼CEO。所以我認為我們的首要任務(wù)應(yīng)該是提高生產(chǎn)力和增長。