劃重點(diǎn):
?? 重要突破:Anthropic宣布了一項(xiàng)關(guān)鍵研究成果,能更好地理解支撐其人工智能算法的神經(jīng)網(wǎng)絡(luò)的行為。
?? 影響廣泛:這一研究有望提高下一代人工智能的安全性和可靠性,使研究人員和開發(fā)者能夠更好地控制其模型的行為。
?? 神經(jīng)網(wǎng)絡(luò)解析:研究人員通過解析神經(jīng)網(wǎng)絡(luò)內(nèi)部的特征,取得了重要進(jìn)展,有望解決神經(jīng)網(wǎng)絡(luò)行為的難題。
站長之家(ChinaZ.com)10月12日 消息:人工智能初創(chuàng)公司Anthropic PBC近日宣布了一項(xiàng)重大突破,他們表示已找到一種更好地理解支撐其人工智能算法的神經(jīng)網(wǎng)絡(luò)行為的方法。這一研究成果有望在提高下一代人工智能的安全性和可靠性方面產(chǎn)生深遠(yuǎn)影響,使研究人員和開發(fā)者能夠更好地控制其模型的行為。
Anthropic的研究聚焦在神經(jīng)網(wǎng)絡(luò)的不可預(yù)測性上,這些網(wǎng)絡(luò)受到啟發(fā)于人腦的神經(jīng)元工作方式,模仿生物神經(jīng)元之間的信號(hào)傳遞。神經(jīng)網(wǎng)絡(luò)是通過數(shù)據(jù)訓(xùn)練的,而不是按照特定規(guī)則編程的,因此它們可以呈現(xiàn)多種不同的行為,這就是為什么研究人員很難控制人工智能模型,以及如何防止其生成虛假答案,也就是所謂的“幻覺”。
圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
Anthropic指出,神經(jīng)科學(xué)家在試圖理解人類行為的生物基礎(chǔ)時(shí)面臨類似的挑戰(zhàn)。他們知道人腦中的神經(jīng)元必須以某種方式實(shí)施思維、情感和決策,但他們無法確定其工作原理。
為了更好地理解神經(jīng)網(wǎng)絡(luò)的工作方式,Anthropic的研究人員深入研究了單個(gè)神經(jīng)元,并確定了每個(gè)神經(jīng)元內(nèi)部的小單元,被稱為特征,這些特征更好地對(duì)應(yīng)于神經(jīng)元激活的模式。通過研究這些特征,研究人員相信他們最終可以更好地理解神經(jīng)網(wǎng)絡(luò)的行為。
在一項(xiàng)實(shí)驗(yàn)中,Anthropic研究了一個(gè)小型變壓器語言模型,將512個(gè)人工神經(jīng)元分解成代表DNA序列、法律文本、HTTP請求、希伯來文本、營養(yǎng)說明等上下文的4000多個(gè)特征。他們發(fā)現(xiàn),單個(gè)特征的行為比神經(jīng)元的行為更具解釋性。
Anthropic驗(yàn)證了他們的研究成果,他們創(chuàng)建了一個(gè)盲目的人工評(píng)估者來比較單個(gè)特征和神經(jīng)元的可解釋性。結(jié)果顯示,特征(紅色)比神經(jīng)元(藍(lán)綠色)得分要高得多。
Anthropic表示,這為以特征作為神經(jīng)網(wǎng)絡(luò)理解的基礎(chǔ)提供了有力證據(jù)。通過放大并查看4000多個(gè)特征的整個(gè)集合,Anthropic發(fā)現(xiàn)這些特征在不同人工智能模型之間具有廣泛的普適性。因此,通過研究一個(gè)模型中的特征所學(xué)到的經(jīng)驗(yàn)可以應(yīng)用于其他模型。
盡管人工神經(jīng)網(wǎng)絡(luò)是使人工智能在過去幾年中變得如此強(qiáng)大的關(guān)鍵發(fā)展,但沒有人真正完全理解它們的工作原理,因此無法預(yù)測它們將如何回答或響應(yīng)任何給定的提示。研究人員迄今大多集中在“機(jī)械互操作性”的研究上,即逆向工程神經(jīng)網(wǎng)絡(luò)的研究。
Anthropic的研究方法為解決這一混亂提供了一個(gè)有趣的途徑,通過更清晰地理解神經(jīng)網(wǎng)絡(luò)的內(nèi)部工作方式,他們已經(jīng)展示出了預(yù)測神經(jīng)網(wǎng)絡(luò)結(jié)果的能力。盡管這一方法尚未擴(kuò)展到更大的模型,但在小型模型上已經(jīng)顯示出了令人印象深刻的潛力,有望在“機(jī)械互操作性”的研究中取得良好進(jìn)展。
Anthropic相信,通過進(jìn)一步研究,他們可能能夠操控所描述的特征,以更可預(yù)測的方式控制神經(jīng)網(wǎng)絡(luò)的行為。最終,這可能對(duì)克服理解語言模型行為的挑戰(zhàn)至關(guān)重要。
(舉報(bào))