11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買(mǎi)1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵?lái)騰訊云選購(gòu)吧!
今天凌晨1點(diǎn),OpenAI開(kāi)源了一個(gè)全新的AIAgent評(píng)測(cè)基準(zhǔn)——PaperBench。這個(gè)基準(zhǔn)主要考核智能體的搜索、整合、執(zhí)行等能力,需要對(duì)2024年國(guó)際機(jī)器學(xué)習(xí)大會(huì)上頂尖論文的復(fù)現(xiàn),包括對(duì)論文內(nèi)容的理解、代碼編寫(xiě)以及實(shí)驗(yàn)執(zhí)行等方面的能力。目前智能體的能力還無(wú)法超越人類(lèi)。