中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > 模型最新資訊  > 正文

    蘋果公司發(fā)布新型機器學習語言模型MLLLLM Ferret-UI 用于理解應(yīng)用 UI 界面

    2024-04-09 16:47 · 稿源:站長之家

    站長之家(ChinaZ.com)4月9日 消息:蘋果公司近日發(fā)布了一款名為MLLLLM Ferret-UI的新型機器學習語言模型,旨在提升對移動應(yīng)用用戶界面(UI)的理解。這款模型經(jīng)過特別優(yōu)化,能夠處理移動UI屏幕上的各種任務(wù),并具備指向、定位和推理等能力。業(yè)界普遍猜測,這一技術(shù)可能會被應(yīng)用在即將發(fā)布的iOS18中,提供類似通過Siri自動操作應(yīng)用界面的功能。

    image.png

    論文地址:https://arxiv.org/pdf/2404.05719.pdf

    Ferret-UI模型是專為提高對移動UI屏幕理解而設(shè)計的MLLM。它的一個關(guān)鍵特點是“任何分辨率”技術(shù),該技術(shù)通過放大細節(jié)來解決UI屏幕中小型對象的識別問題,從而顯著提高模型對UI元素的理解精度。

    UI屏幕的理解是一個復雜的問題,因為它不僅要求模型能夠理解屏幕上的內(nèi)容,還要能夠識別和操作具體的UI元素。與傳統(tǒng)的自然圖像相比,UI屏幕通常具有更多的長寬比和更小的元素,這些元素對于模型來說是一個挑戰(zhàn)。

    為了克服這些挑戰(zhàn),F(xiàn)erret-UI采用了“任何分辨率”技術(shù)。該技術(shù)通過將屏幕分割成基于原始寬高比的子圖像,并對每個子圖像進行單獨編碼,從而在不丟失重要視覺信號的情況下放大細節(jié)。這種方法使得模型能夠更準確地識別和理解UI屏幕上的小型對象。

    在訓練Ferret-UI時,收集了從基礎(chǔ)UI任務(wù)到高級任務(wù)的廣泛數(shù)據(jù)樣本。這些樣本被格式化為帶有區(qū)域注釋的指令遵循格式,以便于模型進行精確的引用和定位。此外,為了提高模型的推理能力,還特別編制了一個包含詳細描述、感知/交互對話和功能推斷等高級任務(wù)的數(shù)據(jù)集。

    Ferret-UI的架構(gòu)基于已經(jīng)在自然圖像的引用和定位任務(wù)中表現(xiàn)出色的Ferret模型。為了適應(yīng)UI屏幕的特點,F(xiàn)erret-UI進行了架構(gòu)調(diào)整,包括集成“任何分辨率”技術(shù)和使用預定義的網(wǎng)格配置來劃分全圖圖像。此外,為了全面評估模型的能力,還建立了一個包含所有研究任務(wù)的綜合測試基準。

    高級任務(wù)中,F(xiàn)erret-UI的對話能力表現(xiàn)突出,尤其是在詳細描述和交互對話任務(wù)中。模型能夠生成與視覺組件相關(guān)的詳細討論,并提出以特定目標為導向的行動計劃。此外,F(xiàn)erret-UI還能夠通過功能推斷來解釋屏幕的整體目的,顯示出在理解和生成自然語言指令方面的高級能力。

    舉報

    • 相關(guān)推薦
    • 時空壺接入大語言模型,跨語言溝通已成翻譯的藝術(shù)

      在當今全球化浪潮中,跨語言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國談判,到文化交流中的思想碰撞,高效、精準的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代,時空壺有望持續(xù)引領(lǐng)行業(yè)變革,推動全球交流合作邁向新的高度,真正實現(xiàn)跨越語言障礙,讓世界溝通無阻。

    • 苦等一年 Meta終于放大招 正式發(fā)布開源大模型Llama 4

      美國科技巨擘Meta重磅推出其迄今最為強大的開源AI模型Llama4,恰逢Llama3上市一周年之際。Llama4系列采用了先進的混合專家架構(gòu),這一架構(gòu)在模型訓練及用戶查詢回答過程中展現(xiàn)出更高效率,通過將模型劃分為多個專注于特定任務(wù)的專家”子模型,實現(xiàn)精準高效的處理。Meta首席執(zhí)行官扎克伯格表示:他們的目標是建立世界領(lǐng)先的人工智能,將其開源,并使其普遍可用,以便世界上每個人都能受益。

    • 蘋果公司全球碳排放量已減少超60%

      站長之家(ChinaZ.com)4月17日 消息:近日,蘋果公司首席執(zhí)行官蒂姆·庫克在其個人微博發(fā)布消息,透露蘋果五年前立下目標,即到2030年實現(xiàn)全業(yè)務(wù)碳中和。如今,這一目標進展有了新的里程碑——蘋果公司全球碳排放量已成功減少超過60%,同時再生材料使用比例與可再生能源利用率均創(chuàng)下歷史新高。消息一經(jīng)發(fā)布,迅速在網(wǎng)絡(luò)上引發(fā)熱議。眾多網(wǎng)友在評論區(qū)積極互動,其中不?

    • One UI 7 被緊急叫停后,One UI 8 又被提前泄密了!

      在 One UI 7 因為升級后的 Bug 問題而被緊急叫停后,One UI 8 又遭到了“提前泄密”……

    • “摸魚神器”比Manus快4倍 全球首個“行動瀏覽器”Fellou來了!

      Fellou AI推出全球首款行動型瀏覽器Fellou,主打智能代理技術(shù),能自動分解用戶任務(wù)并跨網(wǎng)站執(zhí)行。其搜索性能號稱比OpenAI快4倍,單次任務(wù)成本僅0.03-3元。產(chǎn)品特點包括:1)支持登錄式網(wǎng)站訪問;2)通過沙箱環(huán)境實現(xiàn)多網(wǎng)頁并行操作;3)內(nèi)置智能模塊自動規(guī)劃任務(wù)流程;4)集成數(shù)據(jù)分析報告功能。目前提供Mac/PC版,Windows和移動版計劃下半年推出。測試顯示其綜合評分優(yōu)于Deep Research等競品,開發(fā)者還可使用其開源框架Eko Framework進行擴展開發(fā)。

    • 蘋果要 all in 智能眼鏡?Vision Pro 2 也已準備就緒

      蘋果已著手開發(fā)輕便且低價的 AR 智能眼鏡,同時也在開發(fā)第二代頭顯設(shè)備 Vision Pro。

    • 蘋果iOS 19 UI設(shè)計曝光:采用類圓形圖標

      博主FrontPageTech在一期視頻中介紹了iOS19的設(shè)計變化,博主稱iOS19渲染圖基于蘋果內(nèi)部消息繪制。iOS19采用類圓形圖標,鎖屏狀態(tài)下的相機、手電筒等圖標呈現(xiàn)半透明效果,跟visionOS的設(shè)計相近,主界面下方的搜索欄也是半透明效果。能夠適配iOS19的機型包括iPhone16系列、iPhone15系列、iPhone14系列、iPhone13系列、iPhone12系列、iPhone11系列、iPhoneSE2及iPhoneSE3等。

    • Llama 4大模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

      被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時間,口碑急轉(zhuǎn)直下,被質(zhì)疑為刷榜作弊實際效果差、開源條件多部署門檻高是偽開源等。大模型評測平臺LMArena親自下場發(fā)文,打臉Meta提供給平臺的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺,恐將在AI競賽中進一步失去開發(fā)者支持。

    • Meta說他們的 Llama 4 偏見少了!但,“虛假對等”才是真偏見

      Meta公司稱,相比之前的版本,他們最新的人工智能模型Llama4的政治偏見更少了。其中一部分便是通過允許該模型回答更多帶有政治爭議性的問題來實現(xiàn)這一點的。下次當你使用Meta的AI產(chǎn)品時,它可能會為“通過服用馬用鎮(zhèn)靜劑來治療新冠病毒”這種觀點說好話!

    • 海辰儲能發(fā)布∞Cell 587Ah,重塑大容量電池尺寸標準

      2025年4月10日,海辰儲能在第十三屆儲能國際峰會暨展覽會上重磅發(fā)布尺寸為73.5*286*216mm的∞Cell587Ah儲能電池及搭載該款電池的∞Power6.25MWh2h儲能系統(tǒng)?!轈ell587Ah儲能電池已于2025年4月份開始全球送樣,∞Power6.25MWh2h儲能系統(tǒng)將在2025年下半年實現(xiàn)量產(chǎn)。海辰儲能聯(lián)合多家合作伙伴共同定義∞Cell587Ah電池的尺寸標準,充分展示了海辰儲能作為專業(yè)儲能品牌的技術(shù)創(chuàng)新實力和行業(yè)領(lǐng)導力,朝著以“極致成本重構(gòu)能源經(jīng)濟性,極致安全筑牢生命防線,極易維護解放用戶價值,超高適配突破場景邊界,環(huán)保領(lǐng)先守護地球未來”的目標又邁進了一步。