11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
【新智元導(dǎo)讀】Meta首個理解圖文的多模態(tài)Llama3.2來了!這次,除了11B和90B兩個基礎(chǔ)版本,Meta還推出了僅有1B和3B輕量級版本,適配了Arm處理器,手機(jī)、AR眼鏡邊緣設(shè)備皆可用。Llama3.1超大杯405B剛過去兩個月,全新升級后的Llama3.2來了!這次,最大的亮點(diǎn)在于,Llama3.2成為羊駝家族中,首個支持多模態(tài)能力的模型。這些新解決方案已經(jīng)集成到了Meta的參考實(shí)現(xiàn)、演示和應(yīng)用程序中,開源
大模型廠商在上下文長度上卷的不可開交之際,一項(xiàng)最新研究潑來了一盆冷水——Claude背后廠商Anthropic發(fā)現(xiàn),隨著窗口長度的不斷增加,大模型的“越獄”現(xiàn)象開始死灰復(fù)燃。無論是閉源的GPT-4和Claude2是開源的Llama2和Mistral,都未能幸免。目前尚未找到既能完美解決問題又不顯著影響模型效果的辦法,Anthropic選擇發(fā)布通告將這項(xiàng)研究公之于眾,也是為了讓整個業(yè)界都能關(guān)注這個?
北京時間1月6日,網(wǎng)友上傳一段羊駝與游客互動的視頻,引發(fā)廣泛關(guān)注。一只羊駝頻繁向游客吐口水,隨后被一名安全員“教育”。對于安全員的“教育”方式,寵物店表示這是他們的一種教育方式,且不會對羊駝造成傷害。
只要四行代碼就能讓大模型窗口長度暴增,最高可增加3倍!且是“即插即用”,理論上可以適配任意大模型,目前已在Mistral和Llama2上試驗(yàn)成功。有了這項(xiàng)技術(shù),大模型就能搖身一變,成為LongLM。SE的原作者也說,目前SE方法的確還沒有做過效率方面的優(yōu)化,未來計(jì)劃通過引入FlashAttention機(jī)制等策略來解決這一問題。
深度學(xué)習(xí)領(lǐng)域的新技術(shù)近日在HuggingFace的大模型排行榜中嶄露頭角,由UpstageAI提出的深度擴(kuò)展方法在SOLAR10.7B大模型上取得了令人矚目的成績。該技術(shù)通過創(chuàng)新性地拼接兩個7B羊駝,并采用DUS方法刪除中間層次,使得新模型不僅超越了傳統(tǒng)擴(kuò)展方法如MoE能與基礎(chǔ)大模型相同的基礎(chǔ)設(shè)施高效集成。這一實(shí)際應(yīng)用的反饋?zhàn)C明了該技術(shù)在處理實(shí)際數(shù)據(jù)時的優(yōu)越性。
小羊駝團(tuán)隊(duì)的新研究火了。他們開發(fā)了一種新的解碼算法,可以讓模型預(yù)測100個token數(shù)的速度提高1.5-2.3倍,進(jìn)加速LLM推理。其中有兩位華人:傅奕超以及張昊,后者博士畢業(yè)于CMU,碩士畢業(yè)于上交大,現(xiàn)在是加州大學(xué)圣地亞哥分校助理教授。
給Llama2大模型剪一剪駝毛,會有怎樣的效果呢?今天普林斯頓大學(xué)陳丹琦團(tuán)隊(duì)提出了一種名為LLM-Shearing的大模型剪枝法,可以用很小的計(jì)算量和成本實(shí)現(xiàn)優(yōu)于同等規(guī)模模型的性能。自大型語言模型出現(xiàn)以來,它們便在各種自然語言任務(wù)上取得了顯著的效果。更多研究細(xì)節(jié),可參考原論文。
Llama2系列又上新,這回是Meta官方出品的開源編程大模型CodeLlama。模型一發(fā)布,官方直接給貼了個“最強(qiáng)”標(biāo)簽強(qiáng)調(diào)了一把“免費(fèi)可商用”。如果你對CodeLlama感興趣,GitHub項(xiàng)目鏈接文末奉上~不過,想要獲得代碼和模型權(quán)重得先給Meta發(fā)個申請。
只需一句話,描述你想要大模型去做什么。就有一系列AI自己當(dāng)“模型訓(xùn)練師”,幫你完成從生成數(shù)據(jù)集到微調(diào)的所有工作。只需上傳一個產(chǎn)品文檔,就能自動訓(xùn)練出一個可以回答有關(guān)該產(chǎn)品問題的聊天機(jī)器人。
以ChatGPT和GPT-4為代表的大語言模型發(fā)展迅速,緊隨其后,Meta開源的LLaMa、Llama2系列模型在AI界也引起的了不小的轟動。但隨之來的是爭議不斷,有人認(rèn)為LLM存在一些不可控的風(fēng)險,給人類生存構(gòu)成一些潛在威脅。與基礎(chǔ)模型相比,本文微調(diào)模型提高了零樣本準(zhǔn)確率,但在5個樣本上下文示例中表現(xiàn)不佳。