站長(zhǎng)之家(ChinaZ.com) 5月10日消息:Anthropic 是一家由前 OpenAI 高管創(chuàng)立的初創(chuàng)公司,它似乎正試圖在快速發(fā)展的市場(chǎng)中開辟自己的明確位置,為由大型語(yǔ)言模型(稱為生成 AI)提供支持的服務(wù)提供服務(wù)。
Claude 是一個(gè)人工智能聊天機(jī)器人,類似于 OpenAI 的 ChatGPT,Anthropic 在三月份發(fā)布。
Anthropic 詳細(xì)介紹了其「Constitutional AI」訓(xùn)練方法,旨在為其 Claude 聊天機(jī)器人注入明確的「價(jià)值觀」,以解決人工智能系統(tǒng)透明度、安全性和決策制定等方面的擔(dān)憂,而無(wú)需依賴于人類反饋來(lái)評(píng)估響應(yīng)。
Anthropic 表示,隨著 AI 系統(tǒng)的不斷發(fā)展,我們希望能夠借助它們來(lái)監(jiān)督其他的 AI。我們正在嘗試一種方法,通過(guò)自我提升訓(xùn)練一個(gè)無(wú)害的 AI 助手,而不需要任何人工標(biāo)注有害輸出內(nèi)容。
唯一的人工監(jiān)督是通過(guò)一系列規(guī)則或原則來(lái)實(shí)現(xiàn)的,因此我們稱之為「Constitutional AI」。這個(gè)過(guò)程涉及到有監(jiān)督的學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩個(gè)階段。
在有監(jiān)督的階段,我們從一個(gè)初始模型中進(jìn)行采樣,然后生成自我批評(píng)和修訂的結(jié)果,再將修訂后的結(jié)果微調(diào)到原始模型中。
在強(qiáng)化學(xué)習(xí)階段,我們從微調(diào)后的模型中進(jìn)行采樣,使用一個(gè)模型來(lái)評(píng)估哪個(gè)采樣結(jié)果更優(yōu)秀,然后從這個(gè) AI 喜好數(shù)據(jù)集中進(jìn)行偏好模型的訓(xùn)練。
之后,我們使用偏好模型作為獎(jiǎng)勵(lì)信號(hào),即「AI 反饋的強(qiáng)化學(xué)習(xí)」(RLAIF)進(jìn)行訓(xùn)練。因此,我們能夠訓(xùn)練出一個(gè)無(wú)害但非侵入式的 AI 助手,通過(guò)解釋其反對(duì)有害查詢的理由來(lái)進(jìn)行交互。無(wú)論是有監(jiān)督學(xué)習(xí)還是強(qiáng)化學(xué)習(xí),這些方法都能利用鏈?zhǔn)剿季S推理來(lái)改善 AI 決策性能和透明度,使得控制 AI 行為變得更加精確,并且需要的人工標(biāo)注更少。
(舉報(bào))