站長之家(ChinaZ.com)11月29日 消息:自動(dòng)化技術(shù)的最新進(jìn)展引人矚目,其中一項(xiàng)引人注目的技術(shù)是Self-Operating Computer框架。這一框架采用了先進(jìn)的GPT-4V模型,通過模擬人類的鼠標(biāo)點(diǎn)擊和鍵盤輸入,實(shí)現(xiàn)了令人驚嘆的自主操作。在演示中,我們看到了框架自動(dòng)打開瀏覽器并訪問Google Doc,然后開始撰寫詩歌。
Self-Operating Computer的核心能力在于基于給定的目標(biāo),估計(jì)鼠標(biāo)點(diǎn)擊的正確X和Y坐標(biāo)位置,以及在每個(gè)步驟中進(jìn)行適當(dāng)?shù)逆I盤輸入。這一創(chuàng)新的框架旨在與任何視覺-文本多模態(tài)模型協(xié)同工作,以評(píng)估其操作計(jì)算機(jī)的能力。其使用GPT-4V的強(qiáng)大模擬功能使得計(jì)算機(jī)可以自主執(zhí)行各種任務(wù),展現(xiàn)了令人驚嘆的智能水平。
項(xiàng)目地址:
https://github.com/OthersideAI/self-operating-computer#self-operating-computer-framework
值得注意的是,目前Self-Operating Computer框架僅支持在Mac系統(tǒng)中使用。不過,對(duì)于有興趣的用戶,他們可以通過自行部署來體驗(yàn)這一引人入勝的技術(shù)。這種自主操作計(jì)算機(jī)的框架為用戶提供了一個(gè)全新的可能性,使得計(jì)算機(jī)不再僅僅是被動(dòng)執(zhí)行任務(wù)的工具,而是能夠根據(jù)預(yù)定目標(biāo)主動(dòng)進(jìn)行操作。
總體而言,Self-Operating Computer框架的出現(xiàn)標(biāo)志著自動(dòng)化領(lǐng)域的一次重大飛躍。通過結(jié)合先進(jìn)的模型和多模態(tài)技術(shù),該框架展示了計(jì)算機(jī)自主執(zhí)行任務(wù)的新水平。
盡管目前僅限于Mac系統(tǒng),但隨著技術(shù)的不斷發(fā)展,相信將來會(huì)有更廣泛的應(yīng)用場(chǎng)景涌現(xiàn)。自主操作的計(jì)算機(jī)框架無疑將改變我們對(duì)計(jì)算機(jī)能力的認(rèn)知,為未來的科技發(fā)展打開嶄新的可能性。
(舉報(bào))