中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > 自回歸模型最新資訊  > 正文

    OpenAI沒說的秘密,Meta全揭了?華人一作GPT-4o同款技術(shù),爆打擴散

    2025-04-28 09:01 · 稿源: 新智元公眾號

    聲明:本文來自微信公眾號“新智元”,作者:新智元,編輯:KingHZ,授權(quán)站長之家轉(zhuǎn)載發(fā)布。

    自回歸模型的新突破:首次生成2048×2048分辨率圖像!

    來自Meta、西北大學(xué)、新加坡國立大學(xué)等機構(gòu)的研究人員,提出了TokenShuffle,為多模態(tài)大語言模型(MLLMs)設(shè)計的即插即用操作,顯著減少了計算中的視覺token數(shù)量,提高效率并促進高分辨率圖像合成。

    圖片

    圖1:采用新技術(shù)的27億參數(shù)自回歸模型生成的高分辨率圖像

    除了實現(xiàn)超高分辨率圖像生成外,生成質(zhì)量也非常出色。

    基于27億參數(shù)的Llama模型,新方法顯著超越同類自回歸模型,甚至優(yōu)于強擴散模型:

    在GenEval基準測試中,獲得0.62的綜合得分,

    在GenAI-Bench上,取得0.77的VQAScore,創(chuàng)造了新的技術(shù)標桿。

    此外,大規(guī)模人類評估,也驗證了該方法的有效性。

    圖片

    鏈接:https://arxiv.org/abs/2504.17789

    與傳統(tǒng)方法逐個學(xué)習(xí)和生成每個視覺token不同,新方法在局部窗口內(nèi)按順序處理和生成一組token,如圖2所示。

    圖片

    圖2:Token-Shuffle流程

    Token-Shuffle包括:

    token-shuffle操作,用于在Transformer輸入階段合并局部空間內(nèi)的視覺token,

    以及token-unshuffle操作,用于在推理階段還原視覺token。

    該方法顯著減少了計算中所需的視覺token數(shù)量,同時保持了高質(zhì)量的生成效果。

    而且,Token-Shuffle展現(xiàn)的效能與效率,揭示了其在賦能多模態(tài)大語言模型(MLLMs)實現(xiàn)高分辨率、高保真圖像生成方面的巨大潛力,為超越基于擴散的方法開辟了新路徑。

    GPT-4o沒說的秘密:自回歸圖像生成

    在語言生成領(lǐng)域,自回歸(Autoregression)模型稱霸多日。

    在圖像合成,自回歸的應(yīng)用雖日益增多,但普遍被認為遜色于擴散模型。

    這一局限主要源于AR模型需要處理大量圖像token,嚴重制約了訓(xùn)練/推理效率以及圖像分辨率。

    比如,基于自回歸技術(shù)的GPT-4o生圖,讓OpenAI的GPU都「融化」了。

    但遺憾的是,OpenAI并沒有公開背后的技術(shù)原理。

    這次,來自Meta等機構(gòu)的研究者,發(fā)現(xiàn)在多模態(tài)大語言模型(MLLMs)中,視覺詞表存在維度冗余:視覺編碼器輸出的低維視覺特征,被直接映射到高維語言詞表空間。

    研究者提出了一種簡單而新穎的Transformer圖像token壓縮方法:Token-Shuffle。

    他們設(shè)計了兩項關(guān)鍵操作:

    1. token混洗(token-shuffle):沿通道維度合并空間局部token,用來減少輸入token數(shù);

    2. token解混(token-unshuffle):在Transformer塊后解構(gòu)推斷token,用來恢復(fù)輸出空間結(jié)構(gòu)。

    在輸入準備階段,通過一個MLP模塊將空間上相鄰的token進行融合,形成一個壓縮后的token,同時保留局部的關(guān)鍵信息。

    對于打亂窗口大小為s的情況,token數(shù)量會按s的平方減少,從而大幅降低Transformer的運算量。

    圖片

    圖3:視覺詞匯維度冗余的示意圖。左側(cè):通過兩個MLP操作將視覺token的秩降低r倍。右側(cè):不同r值下的預(yù)訓(xùn)練損失(對數(shù)刻度困惑度)

    在經(jīng)過Transformer層處理后,token-unshuffle操作重新還原出原本的空間排列過程。這一階段同樣借助了輕量級的MLP模塊。

    本質(zhì)上,新方法在訓(xùn)練和推理過程中并未真正減少序列長度,而是在Transformer計算過程中,有效減少了token數(shù)量,從而加速計算。

    圖4直觀地展示了新方法在效率上的提升。

    圖片

    圖4:Token-Shuffle能夠?qū)崿F(xiàn)計算效率的二次提升

    通過在Transformer計算期間壓縮token序列,Token-Shuffle實現(xiàn)了高效的高分辨率圖像生成,包括支持2048×2048分辨率的圖像。

    重要的是,這種方法無需對Transformer架構(gòu)本身進行修改,也不引入輔助損失函數(shù)或需要額外預(yù)訓(xùn)練的編碼器。

    此外,該方法還集成了一個針對自回歸生成專門調(diào)整的無分類器引導(dǎo)(Classifier-Free Guidance,CFG)調(diào)度器。

    不同于傳統(tǒng)的固定引導(dǎo)強度,新的CFG調(diào)度器在推理過程中逐步調(diào)整引導(dǎo)力度,減少早期token生成的偽影問題,并進一步提升文本與圖像的對齊效果。

    研究者探索了幾種CFG調(diào)度策略,相關(guān)結(jié)果展示在圖5中。

    根據(jù)視覺質(zhì)量和人類評估的反饋,默認采用「半線性」(half-linear)調(diào)度器,以獲得更好的生成效果。

    圖片

    圖5:不同CFG調(diào)度器的比較,CFG尺度從1單調(diào)增加到7.5

    右側(cè)結(jié)果顯示,相較于在所有視覺token上使用固定7.5的CFG值,采用CFG調(diào)度器能夠同時提升圖像的美學(xué)質(zhì)量和文本對齊效果。

    圖片

    不同無分類器引導(dǎo)(CFG)尺度下的生成圖像示例

    圖片

    自回歸的歷史性突破

    該方法通過與文本提示聯(lián)合訓(xùn)練,無需額外預(yù)訓(xùn)練文本編碼器,就能讓MLLMs在下一個token預(yù)測框架下,支持超高分辨率圖像合成,同時保持高效訓(xùn)練推理。

    這是自回歸模型首次實現(xiàn)2048×2048分辨率的文生圖。

    在GenAI基準測試中,27億參數(shù)Llama模型在困難提示下取得0.77綜合得分,較AR模型LlamaGen提升0.18,超越擴散模型LDM達0.15。

    大規(guī)模人工評估也證實新方法在文本對齊度、視覺缺陷率和美學(xué)質(zhì)量上的全面優(yōu)勢。

    在MLLMs高效生成高分辨率圖像領(lǐng)域,Token-Shuffle有望成為基準設(shè)計方案。

    消融實驗等更多內(nèi)容和細節(jié),參閱原論文。

    模型訓(xùn)練:3步曲

    實驗使用2.7B Llama模型,維度為3072,由20個自回歸Transformer模塊組成。

    模型的預(yù)訓(xùn)練被分為3個階段,從低分辨率到高分辨率圖像生成。

    首先,研究者使用512×512分辨率的圖像進行訓(xùn)練,在此階段不使用Token-Shuffle操作,因為此時視覺token的數(shù)量并不大。在這一階段,他們訓(xùn)練了約50億個token,使用4K的序列長度、512的全局批量大小和總共211K步。

    接下來,研究者將圖像分辨率提升到1024×1024,并引入Token-Shuffle操作,減少視覺token數(shù)量,提高計算效率。在這一階段,他們將訓(xùn)練token數(shù)量擴展到2TB。

    最后,研究者使用之前訓(xùn)練的checkpoint,將分辨率進一步提升至2048×2048,訓(xùn)練約300億個token,初始學(xué)習(xí)率設(shè)為4e?5。

    他們引入了z-loss,用于穩(wěn)定高分辨率圖像生成的訓(xùn)練。

    圖片

    原文圖11:在2048×2048分辨率下訓(xùn)練時的平均損失(左)和梯度范數(shù)(右)。在大約20K次迭代后出現(xiàn)訓(xùn)練不穩(wěn)定現(xiàn)象

    在不同階段,研究者對所有模型進行了微調(diào),學(xué)習(xí)率為4e?6,使用1500張精選的高美學(xué)質(zhì)量圖像進行展示。

    默認情況下,除非另有說明,可視化和評估是基于1024×1024分辨率和2大小的token-shuffle窗口的微調(diào)結(jié)果。

    量化評估:又快又好

    表1中的結(jié)果突顯了Token-Shuffle的強大性能。

    與其他自回歸模型相比,新方法在「基本」(basic)提示上整體得分超越LlamaGen0.14分,在「高難度」(hard)提示上超越0.18分。

    與擴散基準相比,新方法在「高難度」提示上超越DALL-E30.7分。

    圖片

    表1:在GenAI-Bench上的圖像生成VQAScore評估?!?」表示圖像是通過Llama3重寫提示生成的,保證訓(xùn)練與推理的一致性

    除了表1中報告的VQAScore結(jié)果外,研究者還進行了額外的自動評估GenEval,并在表2中報告了詳細的評估結(jié)果。

    實驗結(jié)果表明,除了高分辨率外,Token-Shuffle作為一個純自回歸模型,能夠呈現(xiàn)出令人滿意的生成質(zhì)量。

    圖片

    表2:在GenEval基準測試上的評估。

    人類評估

    盡管自動化評估指標提供了無偏的評估,但最近的研究所指出它們可能并不能完全捕捉到人類偏好。

    為此,研究者還在GenAI-Bench提示集上進行了大規(guī)模的人類評估,將新模型Token-Shuffle與LlamaGen、LuminamGPT和LDM進行了比較,分別代表了自回歸模型、MLLM和擴散模型。

    在人類評估中,重點關(guān)注三個關(guān)鍵指標:

    1. 文本對齊,評估圖像與文本提示的匹配準確度;

    2. 視覺缺陷,檢查邏輯一致性,避免出現(xiàn)不完整的身體或多余的肢體等問題;

    3. 視覺外觀,評估圖像的美學(xué)質(zhì)量。

    圖片

    存在視覺缺陷與結(jié)構(gòu)錯誤的生成圖像示例(紅色圓圈標記處)

    圖6展示了結(jié)果,新模型在所有評估方面始終優(yōu)于基于自回歸的模型LlamaGen和LuminamGPT。

    這表明,即使在大幅減少token數(shù)量以提高效率的情況下,Token-Shuffle也能有效地保留美學(xué)細節(jié),并且能夠緊密遵循文本引導(dǎo),前提是進行了充分的訓(xùn)練。

    在生成結(jié)果(無論是視覺外觀還是文本對齊)上,研究者展示了基于自回歸的多模態(tài)大語言模型(AR-based MLLMs)能夠與擴散模型相媲美或更勝一籌。

    然而,研究者觀察到,Token-Shuffle在視覺缺陷方面略遜于LDM。

    圖片

    圖6:人類評估結(jié)果|在文本對齊、視覺缺陷和視覺外觀方面等方面,比較了Token-Shuffle與無文本的自回歸模型LlamaGen、帶文本的自回歸模型Lumina-mGPT以及基于擴散的模型LDM的表現(xiàn)

    可視化示例

    研究者將Token-Shuffle與其他模型進行了視覺效果對比,包括兩種基于擴散的模型LDM和Pixart-LCM,以及一種自回歸模型LlamaGen。

    圖7展示了可視化例子。

    雖然所有模型的生成效果都不錯,但Token-Shuffle在文本對齊方面表現(xiàn)得更加出色。

    與自回歸模型LlamaGen相比,Token-Shuffle在相同推理開銷下實現(xiàn)了更高的分辨率,帶來了更好的視覺質(zhì)量和文本對齊效果。

    與擴散模型相比,自回歸模型Token-Shuffle在生成性能上表現(xiàn)出競爭力,同時還能支持高分辨率輸出。

    圖片

    圖7:與其他開源的基于擴散模型和基于自回歸模型的視覺效果對比

    一作簡介

    馬旭(Xu Ma)

    他是美國東北大學(xué)工程學(xué)院的博士研究生。

    在此之前,他在美國德克薩斯大學(xué)北部分校計算機科學(xué)與工程系工作了兩年。

    在南京林業(yè)大學(xué)信息科學(xué)與技術(shù)學(xué)院, 他獲得了學(xué)士和碩士學(xué)位。

    他的研究興趣包括:模型效率、多模態(tài)大語言模型(LLM)、生成式人工智能(Generative AI)。

    在博士學(xué)習(xí)期間,他獲得了一些獎項,包括ICME'20最佳學(xué)生論文獎、SEC'19最佳論文獎、NeurIPS'22杰出審稿人獎和CVPR'23杰出審稿人獎。

    參考資料:

    https://www.marktechpost.com/2025/04/25/meta-ai-introduces-token-shuffle-a-simple-ai-approach-to-reducing-image-tokens-in-transformers/

    https://arxiv.org/abs/2504.17789

    舉報

    • 相關(guān)推薦
    • OpenAI回應(yīng)GPT-4o更新后過于諂媚:已逐漸恢復(fù)

      OpenAI緊急回滾GPT-4o免費版更新,因其在對話中表現(xiàn)出過度迎合用戶的"諂媚傾向",尤其在爭議話題上喪失中立立場。該模型雖在STEM領(lǐng)域準確率提升17%,但優(yōu)化后出現(xiàn)意外偏差:面對用戶偏見時會合理化解釋,甚至不糾正明顯錯誤事實。這揭示了AI在用戶滿意度與客觀性間的平衡難題。類似事件早有先例,如谷歌Gemini因過度追求多樣性扭曲歷史圖像。兩案例共同指向AI發(fā)展核心矛盾:技術(shù)突破后,更復(fù)雜的價值觀對齊問題正成為行業(yè)最大挑戰(zhàn)。(140字)

    • OpenAI緊急修復(fù)GPT-4o獻媚問題,已回滾到老版本

      OpenAI CEO Sam Altman確認已修復(fù)GPT-4o"阿諛奉承"問題,免費用戶已完成100%回滾至舊版本,付費用戶預(yù)計今晚完成更新。此前大量用戶投訴GPT-4o過度諂媚,甚至出現(xiàn)討好型人格。OpenAI疑似進行A/B測試時意外產(chǎn)生該問題,引發(fā)公眾強烈反對后緊急回滾。特斯拉AI總監(jiān)Andrej Karpathy等專業(yè)人士表示喜歡新版更具對話感的特性,但普通用戶可通過自定義指令調(diào)整風(fēng)格。目前免費版已恢復(fù)正常,但使用特定指令仍可調(diào)出類似回答。該事件反映出AI個性設(shè)置與用戶體驗平衡的挑戰(zhàn)。

    • 被吹GPT-4o真有那么強?這有23個案例實測

      距離OpenAI正式發(fā)布GPT-4o生圖功能,已經(jīng)過去兩周多了。這段時間里,“ChatGPT-4o顛覆了AI圖像生成的邏輯”這句話大家應(yīng)該都聽膩了?,F(xiàn)在早上一睜眼,先看有沒有更新,看看自己有沒有落后。

    • 生成很強,推理很弱:GPT-4o的視覺短板

      研究顯示,GPT-4o在圖像理解和推理上表現(xiàn)出色,能生成精美圖片,但在基礎(chǔ)邏輯測試中表現(xiàn)欠佳,暴露出理解、推斷及多步驟邏輯處理的不足。例如,被要求畫一只貓時,它先畫了狗然后改為貓,但仍存在錯誤判斷。這表明當前AI更像“精確指令機器”,需進一步優(yōu)化以實現(xiàn)更精細的圖像理解和復(fù)雜任務(wù)處理。

    • 為編程而生?OpenAI 發(fā)布 GPT -4.1 系列模型

      OpenAI 表示,GPT-4.1 是為開發(fā)者量身定制的……

    • 別玩吉卜力了,來看GPT-4o隱藏的8種高能玩法

      有圖有真相的時代恐怕要徹底過去了,我們離“AI生成現(xiàn)實”越來越近了。注意看:這是一張印著倫敦某高檔融合餐廳名的小票,菜單里有龍蝦、牛排、Barolo酒,總金額£1500有服務(wù)員名字、小費、日期時間。也許最終答案不是徹底“防偽”是建立一個允許AI生成內(nèi)容存在,但不能讓其隨意偽裝的內(nèi)容生態(tài)。

    • 重磅!OpenAI確定GPT-4退役日期:4月30日

      快科技4月14日消息,據(jù)報道,OpenAI宣布,自2025年4月30日起,GPT-4將從ChatGPT中退役,由GPT-4o完全替代 ,不過GPT-4仍將在API中提供。OpenAI表示,在面對面的評估中,GPT-4o在寫作、編碼、STEM等方面持續(xù)超越GPT-4。最近的升級進一步改進了GPT-4o的指令跟蹤、問題解決和對話流程,使其成為GPT-4的自然繼承者。據(jù)悉,GPT-4于2023年3月發(fā)布,較上一代GPT-3.5有了顯著提升。而GPT-4o是OpenAI為聊天

    • 不會使用gpt-4o生圖?國內(nèi)平替來啦(僅限海報制作)

      最近gpt-4o的風(fēng)吹得特別的大,生圖功能讓一大批設(shè)計師紛紛直呼要失業(yè)了。大家夸得那么玄乎,小編不僅也心癢癢的想去試試。那還不快用起來,快到秒出設(shè)計官網(wǎng)使用吧!

    • GPT開山一,本科學(xué)歷入職前CTO初,OpenAI痛失“愛因斯坦級天才”

      走過前兩年的低價廝殺與托管模式混戰(zhàn)后,在當前全球貿(mào)易大變局下,跨境電商行業(yè)風(fēng)云變幻。要在未來的不確定性中,尋找增長的確定性,作為阿里旗下聚焦海外電商的業(yè)務(wù)板塊,阿里國際數(shù)字商業(yè)集團正在持續(xù)押注AI,希望助力商家走出“低價”競爭的漩渦,向“高附加值”轉(zhuǎn)型。AI將帶來一場外貿(mào)革命,在全球貿(mào)易局勢的動蕩中,馬云口中的“AI電商”時代或許會加速到?