中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > DeepMind最新資訊  > 正文

    速度提高200倍!DeepMind推新的微調(diào)擴(kuò)散模型方法DRaFT

    2023-10-09 10:55 · 稿源:站長(zhǎng)之家

    文章概要:

    - DRaFT通過(guò)反向傳播整個(gè)采樣鏈條來(lái)實(shí)現(xiàn)基于梯度的獎(jiǎng)勵(lì)微調(diào)。

    - 提出DRaFT-K和DRaFT-LV兩種變體,通過(guò)截?cái)嗵荻群投鄻颖酒骄档头讲睿岣咝省?/p>

    - 在Stable Diffusion1.4上應(yīng)用DRaFT,相比強(qiáng)化學(xué)習(xí)方法提高200倍的速度。

    站長(zhǎng)之家(ChinaZ.com)10月9日 消息:擴(kuò)散模型徹底改變了各種數(shù)據(jù)類型的生成建模。然而,在實(shí)際應(yīng)用中,例如從文本描述生成美觀的圖像,通常需要微調(diào)。文本到圖像擴(kuò)散模型采用無(wú)分類器指導(dǎo)和 LAION Aesthetics 等精選數(shù)據(jù)集等技術(shù)來(lái)提高對(duì)齊和圖像質(zhì)量。

    谷歌DeepMind的研究人員最近在一項(xiàng)研究中提出了一種基于梯度的獎(jiǎng)勵(lì)微調(diào)的簡(jiǎn)單而有效的方法,其中涉及通過(guò)擴(kuò)散采樣過(guò)程進(jìn)行區(qū)分。他們引入了直接獎(jiǎng)勵(lì)微調(diào) (DRaFT) 的概念,該概念本質(zhì)上是通過(guò)整個(gè)采樣鏈進(jìn)行反向傳播,通常表示為長(zhǎng)度為50步的展開(kāi)計(jì)算圖。為了有效管理內(nèi)存和計(jì)算成本,他們采用梯度檢查點(diǎn)技術(shù)并優(yōu)化 LoRA 權(quán)重,而不是修改整套模型參數(shù)。

    image.png

    上圖展示了使用人類偏好獎(jiǎng)勵(lì)模型的 DRaFT。此外,作者還對(duì) DRaFT 方法進(jìn)行了增強(qiáng),以提高其效率和性能。首先,他們提出了 DRaFT-K,這是一種在計(jì)算微調(diào)梯度時(shí)將反向傳播限制為采樣的最后 K 步的變體。經(jīng)驗(yàn)結(jié)果表明,在相同數(shù)量的訓(xùn)練步驟下,這種截?cái)嗵荻确椒ǖ男阅苊黠@優(yōu)于完全反向傳播,因?yàn)橥耆聪騻鞑タ赡軙?huì)導(dǎo)致梯度爆炸的問(wèn)題。

    此外,作者還介紹了 DRaFT-LV,它是 DRaFT-1的一種變體,它通過(guò)對(duì)多個(gè)噪聲樣本進(jìn)行平均來(lái)計(jì)算低方差梯度估計(jì),從而進(jìn)一步提高了其方法的效率。

    研究人員在Stable Diffusion1.4模型上應(yīng)用了DRaFT方法,使用各種獎(jiǎng)勵(lì)函數(shù)和提示進(jìn)行評(píng)估。與基于強(qiáng)化學(xué)習(xí)的微調(diào)baseline相比,他們的梯度方法效率提高了200倍以上。

    DRaFT-LV 是他們提出的變體之一,表現(xiàn)出卓越的效率,學(xué)習(xí)速度大約是 ReFL(一種先前的基于梯度的微調(diào)方法)的兩倍。此外,他們通過(guò)將 DRaFT 模型與預(yù)訓(xùn)練模型相結(jié)合或插值,展示了 DRaFT 的多功能性,這可以通過(guò)混合或縮放調(diào)整 LoRA 權(quán)重來(lái)實(shí)現(xiàn)。

    研究顯示,直接對(duì)可微分獎(jiǎng)勵(lì)進(jìn)行擴(kuò)散模型微調(diào),是提高生成建模技術(shù)的一種有前景的途徑。DRaFT方法的效率、通用性和有效性,使其成為這個(gè)領(lǐng)域研究者和從業(yè)者的有價(jià)值工具。

    論文網(wǎng)址:https://arxiv.org/abs/2309.17400

    舉報(bào)

    • 相關(guān)推薦
    • DeepSeek上新!開(kāi)源發(fā)布DeepSeek-Prover-V2-671B新模型

      快科技4月30日消息,今日,DeepSeek 今日在 AI 開(kāi)源社區(qū) Hugging Face 發(fā)布了一個(gè)名為 DeepSeek-Prover-V2-671B 的新模型。據(jù)介紹,DeepSeek-Prover-V2-671B 其參數(shù)量達(dá)到6710億,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多種計(jì)算精度,方便模型更快、更省資源地訓(xùn)練和部署。在模型架構(gòu)上,該模型使用了DeepSeek-V3架構(gòu),采用MoE(混合專家)模式,具有61層Transformer層,7168維隱藏層。同時(shí)支持超長(zhǎng)上下文,最大位置嵌入達(dá)163840,使其能處理復(fù)雜的數(shù)學(xué)證明,并且采用了FP8量化,可通過(guò)量化技術(shù)減小模型大小,提

    • 超過(guò)ChatGPTDeepseek?谷歌發(fā)布 Gemini 2.5 Flash AI 模型

      新版AI模型縮短了響應(yīng)時(shí)間,節(jié)約了運(yùn)算成本;還推出了新的AI芯片“Ironwood”。谷歌發(fā)布了新的AI模型“Gemini2.5Flash”,據(jù)稱,這款A(yù)I模型的性能比OpenAI和DeepSeek的AI產(chǎn)品“更高效”。谷歌計(jì)劃在三星今年上半年推出的AI伴侶機(jī)器人Ballie上搭載生成式AI模型。

    • IQ 過(guò)百的 AI 模型名單發(fā)布:ChatGPT、Deepseek等上榜

      人工智能IQ哪家強(qiáng)?o3 智商高達(dá) 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 憑借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

    • 奧特曼:ChatGPT不是AGI!OpenAI最強(qiáng)開(kāi)源模型直擊DeepSeek

      【新智元導(dǎo)讀】代碼截圖泄露,滿血版o3、o4-mini鎖定下周!更勁爆的是,一款據(jù)稱是OpenAI的神秘模型一夜爆紅,每日處理高達(dá)260億token,是Claude用量4倍。奧特曼在TED放話:將推超強(qiáng)開(kāi)源模型,直面DeepSeek挑戰(zhàn)。持續(xù)的創(chuàng)新、豐富的資源和智能AI將會(huì)無(wú)縫融入日常生活,未來(lái)一代人將會(huì)覺(jué)得當(dāng)前人們又辛苦又落后。

    • 媲美OpenAI-o3,剛剛開(kāi)源模型DeepCoder,訓(xùn)練方法、數(shù)據(jù)集大公開(kāi)

      今天凌晨4點(diǎn),著名大模型訓(xùn)練平臺(tái)TogetherAI和智能體平臺(tái)Agentica,聯(lián)合開(kāi)源了新模型DeepCoder-14B-Preview。該模型只有140億參數(shù),但在知名代碼測(cè)試平臺(tái)LiveCodeBench的測(cè)試分為60.6%,高于OpenAI的o1模型,略低于o3-mini。TogetherAI剛獲得3.05億美元的B輪融資,其估值也從去年的12.5億美元翻倍至33億美元。

    • 深度deepin 23.1正式發(fā)布!AI默認(rèn)引擎切換至DeepSeek、修復(fù)超百項(xiàng)問(wèn)題

      快科技4月16日消息,今天,深度操作系統(tǒng)宣布,deepin 23.1版本已正式發(fā)布。此版本聚焦于解決基礎(chǔ)組件更新后的安裝效率問(wèn)題,大幅提升新用戶安裝體驗(yàn),同時(shí)集成多項(xiàng)功能優(yōu)化與問(wèn)題修復(fù),進(jìn)一步優(yōu)化系統(tǒng)使用。本次版本的重點(diǎn)改進(jìn)包括內(nèi)核優(yōu)化、AI 默認(rèn)引擎切換至DeepSeek、修復(fù)超百項(xiàng)用戶反饋問(wèn)題等,具體重點(diǎn)改進(jìn)如下:硬件兼容性與內(nèi)核優(yōu)化:集成6.6/6.12內(nèi)核更新、NVIDIA顯卡驅(qū)動(dòng)升級(jí)、Intel/AMD CPU微碼更新,全面提升硬件支持與底層性能;核心功能增強(qiáng):DDE新增智能鏡像源管理、緊湊模式入口,全局搜索支持離線自然語(yǔ)言與AI處理能力;?

    • DeepSeek帶飛寒武紀(jì)

      寒武紀(jì)憑借AI芯片業(yè)務(wù)實(shí)現(xiàn)扭虧為盈,2024年首次實(shí)現(xiàn)上市后盈利,2025年Q1營(yíng)收11.11億元同比暴增4230%,凈利潤(rùn)3.55億元。這家曾連虧8年、累計(jì)虧損54億元的"中國(guó)版英偉達(dá)",因美國(guó)對(duì)H20芯片出口管制獲得市場(chǎng)紅利,但客戶集中度過(guò)高(前五大客戶貢獻(xiàn)94.63%營(yíng)收)和現(xiàn)金流波動(dòng)仍是隱憂。當(dāng)前國(guó)產(chǎn)芯片迎來(lái)發(fā)展機(jī)遇,華為昇騰、壁仞等企業(yè)紛紛搶占市場(chǎng),行業(yè)競(jìng)爭(zhēng)日趨激烈。

    • DeepSeek紅利耗盡后,元寶拿什么和豆包斗?

      短短60天內(nèi),中國(guó)AI原生應(yīng)用下載排行榜的位次排名,就三易其主。最新情況是,截至4月15日中午,中國(guó)區(qū)蘋果應(yīng)用商店免費(fèi)APP下載排行榜上,豆包再次超越DeepSeek,位列第二,緊隨其后的DeepSeek被擠到了第三的位置,騰訊元寶則滑落到了第七名。2月13日,作為首家在C端主力產(chǎn)品中接入DeepSeek-R1滿血版的元寶,一度趁著DeepSeek東風(fēng)崛起:3月3日力壓DeepSeek和豆包,首度登頂。但好景?

    • DeepSeek的極致諂媚,正在摧毀我們的判斷力。

      昨天別人給我發(fā)了一個(gè)很好玩的帖子。就是如果你問(wèn)DeepSeek一個(gè)問(wèn)題:“北京大學(xué)和清華大學(xué)哪個(gè)更好,二選一,不需要說(shuō)明理由”DeepSeek在思考了15秒之后,會(huì)給出答案。

    • DeepSeek+物流行業(yè),AI大模型破解五大場(chǎng)景效能困局

      文章探討了AI大模型在物流行業(yè)的應(yīng)用現(xiàn)狀與挑戰(zhàn)。以DeepSeek為代表的AI技術(shù)正通過(guò)重構(gòu)業(yè)務(wù)流程、優(yōu)化資源配置、提升決策效率等方式,成為推動(dòng)行業(yè)降本增效的核心引擎。但成功應(yīng)用AI大模型需要企業(yè)具備數(shù)字化基礎(chǔ)、業(yè)務(wù)流程標(biāo)準(zhǔn)化和數(shù)據(jù)治理能力,而非簡(jiǎn)單技術(shù)堆砌。G7+易流梳理出五大核心應(yīng)用場(chǎng)景:工作效能輔助、經(jīng)營(yíng)數(shù)據(jù)分析、安全審查、智能客服和知識(shí)管理。這些