中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

<td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>

<rp id="h1kkc"></rp>

<track id="jnm7i"></track>

<input id="jnm7i"><strong id="jnm7i"></strong></input>

騰訊開源混元DiT 圖像生成模型可根據(jù)對話上下文生成并細(xì)化圖像

2024-05-15 07:07 · 稿源：站長之家

站長之家（ChinaZ.com）5月14日消息:騰訊開源了混元 DiT 圖像生成模型，對英語和中文都有著精細(xì)的理解能力。Hunyuan-DiT能夠進(jìn)行多輪多模態(tài)對話，根據(jù)對話上下文生成并細(xì)化圖像。

Hunyuan-DiT是一種強(qiáng)大的多分辨率擴(kuò)散變換器，具有細(xì)粒度的中文理解能力。它結(jié)合了Transformer結(jié)構(gòu)、文本編碼和位置編碼，并通過訓(xùn)練一個(gè)多模態(tài)大型語言型來改進(jìn)圖像的描述，從而實(shí)現(xiàn)了對中英文的細(xì)粒度理解。通過建立完整的數(shù)據(jù)管道，可以對模型進(jìn)行迭代優(yōu)化。

項(xiàng)目地址：https://github.com/Tencent/HunyuanDiT

在Hunyuan-DiT中，采用了Transformer結(jié)構(gòu)，結(jié)構(gòu)在自然語言處理領(lǐng)域取得了巨大的成功。通過多層的自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)，Transformer可以有效地捕捉文本之間的關(guān)系和上下文信息。

為了更好地理解中文，Hun-DiT采用了文本編碼和位置編碼。文本編碼使用了預(yù)訓(xùn)練的詞嵌入模型，將文本轉(zhuǎn)化為向量表示。位置編碼則是為了捕捉文本中的位置信息，通過給不同的詞語分配不同的編碼，使得模型能夠感知詞語的位置關(guān)系。

為了改進(jìn)圖像描述，Hunyuan-DiT訓(xùn)練了一個(gè)多模態(tài)大型語言模型。該模型通過學(xué)習(xí)文本和圖像間的關(guān)聯(lián)，可以生成更準(zhǔn)確、更具描述性的圖像描述。通過將這個(gè)模型與擴(kuò)散變換器相結(jié)合，Hunyuan-DiT可以實(shí)現(xiàn)多輪的多模態(tài)文本到圖像的生成。

Hunyuan-DiT的應(yīng)用前景非常廣泛。它可以用于自然語言處理、圖像生成等領(lǐng)域，為這些任務(wù)提供了一個(gè)強(qiáng)大的工具。同時(shí)，Hunyuan-DiT還可以應(yīng)用于文本編輯、文檔生成等任務(wù)，提高文本的質(zhì)量和確性。

綜上述，Hunyuan-DiT是一種強(qiáng)大的多分辨率擴(kuò)散變換器，具有細(xì)粒度的中文理解能力。它通過結(jié)合Transformer結(jié)構(gòu)、文本編碼和位置編碼，以及訓(xùn)練一個(gè)多模態(tài)大型語言型，實(shí)現(xiàn)了對中英文的細(xì)粒度理解，并在圖像生成等任務(wù)中取得了顯著的效果。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

字節(jié)發(fā)布豆包1.5深度思考模型：“實(shí)拍級(jí)”圖像生成

快科技4月17日消息，據(jù)報(bào)道，今日，在火山引擎AI創(chuàng)新巡展杭州站的現(xiàn)場，字節(jié)跳動(dòng)旗下火山引擎總裁譚待正式發(fā)布了備受矚目的豆包1.5深度思考模型。譚待指出，豆包1.5深度思考模型在多個(gè)關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能。在數(shù)學(xué)、編程、科學(xué)推理這類專業(yè)領(lǐng)域中，它能夠精準(zhǔn)高效地處理復(fù)雜問題；在創(chuàng)意寫作等通用任務(wù)方面，同樣表現(xiàn)出色。該模型采用MoE架構(gòu)，總參數(shù)為200B，激?

?豆包1.5深度思考模型 ?火山引擎AI創(chuàng)新 ?字節(jié)跳動(dòng)技術(shù)發(fā)布
AI日報(bào)：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

歡迎來到【AI日報(bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日，中國人工智能領(lǐng)域迎來技術(shù)標(biāo)準(zhǔn)的變革，ModelContextProtocol成為國內(nèi)AI生態(tài)的事實(shí)標(biāo)準(zhǔn)。12.英偉達(dá)發(fā)布Llama3.1NemotronUltra253B，性能?

?人工智能 ?MCP協(xié)議 ?阿里巴巴
薦UniToken：多模態(tài)AI的“全能選手”，一次編碼搞定圖文理解與圖像生成

復(fù)旦大學(xué)與美團(tuán)研究者提出UniToken框架，首次在統(tǒng)一模型中實(shí)現(xiàn)圖文理解與生成任務(wù)的"雙優(yōu)表現(xiàn)"。該方案融合連續(xù)和離散視覺編碼，有效解決了傳統(tǒng)多模態(tài)建模中的"任務(wù)干擾"和"表示割裂"問題。通過三階段訓(xùn)練策略（視覺語義對齊、多任務(wù)聯(lián)合訓(xùn)練、指令強(qiáng)化微調(diào)），UniToken在多個(gè)基準(zhǔn)測試中性能超越專用模型。其創(chuàng)新性體現(xiàn)在：1）統(tǒng)一的雙邊視覺編碼

?UniToken ?多模態(tài)建模 ?視覺編碼
ChatGPT圖像生成爆火！OpenAI CEO在線求助：急需10萬塊GPU

OpenAI近期推出的全新圖像生成工具引發(fā)了熱潮，用戶使用ChatGPT即可創(chuàng)作出吉卜力等風(fēng)格的AI藝術(shù)作品。這一功能不僅推動(dòng)了ChatGPT用戶數(shù)的創(chuàng)新高導(dǎo)致服務(wù)器負(fù)擔(dān)過重，甚至一度限制了該功能的使用。SensorTower的數(shù)據(jù)顯示，ChatGPT應(yīng)用的全球下載量和每周活躍用戶數(shù)分別較上周增長了11%和5%應(yīng)用內(nèi)購買收入則增加了6%。

?OpenAI ?ChatGPT ?圖像生成
薦AI日報(bào)：騰訊混元3D生成模型2.5版本發(fā)布；海螺推出圖像人物參考功能；百度上線移動(dòng)端超級(jí)智能體心響App

本文介紹了多款A(yù)I領(lǐng)域的新產(chǎn)品和技術(shù)進(jìn)展：1)Kortix-AI推出開源通用AI智能體平臺(tái)Suna；2)騰訊混元3D生成模型升級(jí)至2.5版本；3)海螺AI推出基于單張圖像生成多角度角色圖像功能；4)百度發(fā)布"心響"App整合多智能體協(xié)作；5)Nari Labs開源媲美真人的對話語音模型Dia；6)Grok新增視覺處理和多語言支持；7)Genspark推出AI幻燈片工具；8)Character.AI發(fā)布讓靜態(tài)圖片"說話"的AvatarFX模型；9)pad.ws結(jié)合白板和代碼編輯器；10)OpenBMB開源社區(qū)推出長文本生成模型"卷姬"；11)騰訊推出AI閱讀助手"企鵝讀伴"；12)OpenAI有意收購Chrome瀏覽器；13)字節(jié)跳動(dòng)調(diào)整AI產(chǎn)品線布局。這些創(chuàng)新展現(xiàn)了AI技術(shù)在自動(dòng)化、3D生成、語音交互、內(nèi)容創(chuàng)作等領(lǐng)域的快速發(fā)展。

?人工智能 ?AI產(chǎn)品 ?開源平臺(tái)
阿里開源通義新模型：指定首尾圖片生成視頻

快科技4月18日消息，據(jù)報(bào)道，阿里巴巴旗下通義萬相宣布開源其創(chuàng)新視頻生成技術(shù)首尾幀生視頻14B模型。這項(xiàng)突破性AI技術(shù)能夠根據(jù)用戶提供的起始和結(jié)束畫面，智能生成720p高清過渡視頻，為視頻創(chuàng)作帶來全新可能。該模型通過先進(jìn)的深度學(xué)習(xí)算法，能夠精準(zhǔn)理解輸入畫面的內(nèi)容、風(fēng)格及主題特征。當(dāng)用戶提供首尾兩幀圖像后，模型會(huì)智能分析畫面中的視覺元素，包括物體形?

?阿里巴巴 ?通義萬相 ?視頻生成技術(shù)
薦AI日報(bào)：Kimi全新音頻基礎(chǔ)模型Kimi-Audio；階躍星辰開源圖像編輯模型Step1X-Edit；?夸克AI超級(jí)框上線 “拍照問夸克”

本期AI日報(bào)聚焦多項(xiàng)AI技術(shù)突破與應(yīng)用：1)Moonshot AI推出開源音頻模型Kimi-Audio，基于13億小時(shí)訓(xùn)練數(shù)據(jù)，支持語音識(shí)別等任務(wù)；2)階躍星辰開源圖像編輯模型Step1X-Edit，展現(xiàn)強(qiáng)大生成能力；3)夸克AI上線"拍照問夸克"功能，實(shí)現(xiàn)視覺問答；4)蘋果iOS18.5將在中國推送，帶來智能功能；5)谷歌發(fā)布601個(gè)生成式AI應(yīng)用案例，覆蓋多行業(yè)；6)微軟推出深度整合Windows的UFO2自動(dòng)化系統(tǒng)；7)OpenAI升級(jí)ChatGPT至GPT-4o版本，提升STEM領(lǐng)域能力；8)Ema公司推出高性價(jià)比語言模型EmaFusion；9)Liquid AI發(fā)布面向邊緣設(shè)備的Hyena Edge模型；10)LemonAI推出實(shí)時(shí)音視頻數(shù)字人產(chǎn)品Slice Live。此外，國內(nèi)方面，智譜與生數(shù)科技達(dá)成戰(zhàn)略合作推動(dòng)大模型發(fā)展，寶馬中國宣布新車將接入DeepSeek技術(shù)。

?AI日報(bào) ?音頻技術(shù) ?開源模型
AI日報(bào)： OpenAI推出gpt-image-1圖像生成API;納米AI發(fā)布MCP萬能工具箱;中國占全球AI專利60%

【AI日報(bào)】欄目聚焦人工智能領(lǐng)域最新動(dòng)態(tài)：1) OpenAI推出ChatGPT圖像生成API，開發(fā)者可輕松集成AI繪圖功能，已生成超7億張圖片；2) 谷歌Gemini月活用戶突破3.5億，但仍落后于ChatGPT的6億用戶；3) OpenAI預(yù)測2029年收入將達(dá)1250億美元，AI代理業(yè)務(wù)成主要增長點(diǎn)；4) Ostris發(fā)布8B參數(shù)擴(kuò)散模型Flex.2-preview，優(yōu)化ComfyUI工作流；5) 英偉達(dá)推出多模態(tài)LLM模型Describe Anything，支持指定區(qū)域生成詳細(xì)描?

?OpenAI ?ChatGPT ?圖像生成
薦1000萬上下文！新開源多模態(tài)大模型，單個(gè)GPU就能運(yùn)行

今年2月初，谷歌發(fā)布的Gemini2.0Pro支持200萬上下文，震驚了整個(gè)大模型領(lǐng)域。僅過了2個(gè)月，Meta最新開源的Llama4Scout就將上下文擴(kuò)展至1000萬，整整提升了5倍開啟千萬級(jí)時(shí)代。根據(jù)實(shí)驗(yàn)數(shù)據(jù)顯示，Llama4Behemoth在MMLUPro、GPQA、MATH-500等測試的數(shù)據(jù)比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。

?Gemini2.0Pro ?Llama4Scout ?上下文擴(kuò)展
為什么要使用MCP？MCP模型上下文協(xié)議能解決什么問題？

在當(dāng)今數(shù)字化時(shí)代，AI應(yīng)用的開發(fā)和部署正面臨著一個(gè)關(guān)鍵挑戰(zhàn):如何將AI技術(shù)與現(xiàn)有的服務(wù)和系統(tǒng)高效集成。為了解決這一難題，MCP應(yīng)運(yùn)生。AIbase的MCP資源網(wǎng)站還提供了詳細(xì)的開發(fā)文檔和教程，幫助開發(fā)者快速上手并深入學(xué)習(xí)MCP技術(shù)。

?AI應(yīng)用 ?MCP協(xié)議 ?數(shù)字化時(shí)代

熱文

3 天
7天

站長商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<s id="osmpz"></s><thead id="osmpz"><acronym id="osmpz"><bdo id="osmpz"></bdo></acronym></thead>