站長之家(ChinaZ.com)2月5日 消息:蘋果開源了一種新的技術(shù),名為多模態(tài)大語言模型引導(dǎo)的編輯(MGIE),這項技術(shù)能夠幫助用戶通過自然語言指令來修改圖片,使得編輯圖片更加簡單和自然。
MGIE采用多模態(tài)大型語言模型(MLLMs)進行圖像編輯指令的生成,通過端到端訓(xùn)練,模型不僅捕捉視覺想象力,還執(zhí)行圖像處理操作。該方法在ICLR'24上取得了Spotlight成果。
項目地址:https://top.aibase.com/tool/mgie
多模態(tài)大語言模型引導(dǎo)的編輯技術(shù)(MGIE)不僅可以幫助用戶編輯圖片,還能夠通過自然語言指令來實現(xiàn)對圖像的各種修改,比如改變顏色、調(diào)整大小、添加特效等等。這種技術(shù)的出現(xiàn),極大地簡化了圖像編輯的流程,讓用戶可以更輕松地完成他們想要的效果。
這一方法的創(chuàng)新之處在于將大型語言模型與圖像編輯相結(jié)合,實現(xiàn)了更加智能和直觀的圖像處理。通過該項目,用戶可以在圖像編輯任務(wù)中更加自由地使用自然語言指令,而無需繁瑣的描述或區(qū)域掩碼。項目中詳細說明了數(shù)據(jù)準(zhǔn)備、訓(xùn)練和推斷的步驟,為用戶提供了便利。
該項目在圖像編輯領(lǐng)域探索了新的可能性,為使用自然語言進行圖像處理提供了一種創(chuàng)新的方法。在實現(xiàn)更加直觀和自由的圖像編輯過程中,這一方法有望為未來的計算機視覺和圖像處理研究提供新的思路。
(舉報)