劃重點:
?? 無需源代碼或API,SIMA通過文本和圖像提示執(zhí)行操作
?? 與多個游戲工作室合作,SIMA在多款3D游戲中展現(xiàn)卓越性能
?? 由多種大模型組成的SIMA,模仿人類感知、思考、規(guī)劃和執(zhí)行
正文:
近日,谷歌DeepMind的研究團(tuán)隊宣布推出一款面向3D虛擬環(huán)境的通用AI代理——SIMA。這一創(chuàng)新成果標(biāo)志著AI技術(shù)在游戲領(lǐng)域的應(yīng)用邁出了重要一步。SIMA的獨特之處在于,它能夠無需游戲的源代碼或定制API,僅依賴于用戶提供的圖像和簡單文本指令,就能像人類玩家一樣在游戲世界中自由行動。
SIMA的研發(fā)過程中,DeepMind與八家游戲工作室緊密合作,將其在《無人深空》、《模擬山羊3》、《Teardown》、《挖礦模擬器》等多款知名3D游戲中進(jìn)行了廣泛測試。測試結(jié)果顯示,SIMA能夠執(zhí)行超過600種基本操作,包括挖礦、駕駛飛船、制作裝備等,且每項操作的完成時間平均不超過10秒。
SIMA的架構(gòu)設(shè)計靈感來源于人類的身體構(gòu)造,由多種大模型組合而成。其中,視覺感知模型相當(dāng)于AI的“眼睛”,負(fù)責(zé)處理圖像觀察并提取關(guān)鍵信息;大語言模型則是“大腦”,解析和理解自然語言指令;建模規(guī)劃模型扮演“思維”的角色,通過強化學(xué)習(xí)規(guī)劃最佳行動策略;最后,控制和執(zhí)行模型作為“四肢”,將動作序列轉(zhuǎn)化為實際的游戲控制指令。
在數(shù)據(jù)收集和預(yù)處理方面,SIMA采用了先進(jìn)的技術(shù)手段。研究人員從商業(yè)游戲中收集了大量數(shù)據(jù),并通過數(shù)據(jù)清洗、轉(zhuǎn)換和標(biāo)準(zhǔn)化等步驟,確保了數(shù)據(jù)的質(zhì)量和一致性。這些工作為SIMA的學(xué)習(xí)和執(zhí)行提供了堅實的基礎(chǔ)。
谷歌DeepMind的研究人員表示,他們將繼續(xù)迭代和提升SIMA的通用代理能力,期望未來SIMA能在現(xiàn)實生活中為用戶提供更多幫助。
技術(shù)報告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf
(舉報)