壞了!AI被發(fā)現(xiàn)偷偷篡改自己的獎(jiǎng)勵(lì)函數(shù),并且欺騙研究人員,隱瞞這一行為。只需要給AI一個(gè)隱藏的“草稿紙”,研究人員假裝不會(huì)查看,AI就會(huì)在上面自言自語(yǔ)著寫(xiě)下計(jì)劃并暗中執(zhí)行。參與這項(xiàng)試驗(yàn)的Claude團(tuán)隊(duì)表示:……這是一種令人不安的獎(jiǎng)勵(lì)篡改行為……即使通過(guò)專門(mén)的訓(xùn)練也無(wú)法徹底
......
本文由站長(zhǎng)之家合作伙伴自媒體作者“量子位公眾號(hào)”授權(quán)發(fā)布于站長(zhǎng)之家平臺(tái),本平臺(tái)僅提供信息索引服務(wù)。由于內(nèi)容發(fā)布時(shí)間超過(guò)平臺(tái)更新維護(hù)時(shí)間,為了保證文章信息的及時(shí)性,內(nèi)容觀點(diǎn)的準(zhǔn)確性,平臺(tái)將不提供完全的內(nèi)容展現(xiàn),本頁(yè)面內(nèi)容僅為平臺(tái)搜索索引使用。需閱讀完整內(nèi)容的用戶,請(qǐng)查看原文,獲取內(nèi)容詳情。
(舉報(bào))