劃重點(diǎn):
?? 微軟的Azure AI平臺(tái)為幻覺、提示攻擊和安全評(píng)估增加了安全功能
??? 三個(gè)新功能:提示屏蔽、基于AI檢測(cè)和安全評(píng)估
?? 安全功能立即“附加”到GPT-4等流行模型上
站長(zhǎng)之家(ChinaZ.com) 3月29日 消息:微軟的Azure AI平臺(tái)最近添加了一系列新的安全功能,旨在幫助捕捉客戶AI應(yīng)用中的幻覺、提示攻擊和其他安全漏洞。這些功能由微軟的首席負(fù)責(zé)人Sarah Bird介紹,并表示將易于使用,無需雇傭紅隊(duì)來測(cè)試他們構(gòu)建的AI服務(wù)。
這些由LLM提供支持的工具可以檢測(cè)潛在的漏洞,監(jiān)控“可能是合理但不受支持”的幻覺,并實(shí)時(shí)阻止Azure AI客戶使用任何托管在該平臺(tái)上的模型時(shí)出現(xiàn)的惡意提示。Bird表示:“我們知道,客戶并非都對(duì)提示注入攻擊或惡意內(nèi)容有深入的專業(yè)知識(shí),因此評(píng)估系統(tǒng)會(huì)生成所需的提示來模擬這些類型的攻擊。客戶隨后可以得到評(píng)分并查看結(jié)果?!?/p>
圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
這些安全功能分為三個(gè)主要部分:提示屏蔽、基于AI檢測(cè)和安全評(píng)估,現(xiàn)在已在Azure AI上提供預(yù)覽。另外兩個(gè)功能用于指導(dǎo)模型輸出安全內(nèi)容和跟蹤提示以標(biāo)記潛在的問題用戶,即將推出。
無論用戶是輸入提示還是模型正在處理第三方數(shù)據(jù),監(jiān)控系統(tǒng)都將對(duì)其進(jìn)行評(píng)估,以查看是否觸發(fā)任何被禁止的詞語(yǔ)或隱藏提示,然后再?zèng)Q定是否將其發(fā)送給模型進(jìn)行回答。之后,系統(tǒng)將查看模型的響應(yīng),并檢查模型是否在文檔或提示中產(chǎn)生了不在其中的信息。
Bird承認(rèn),人們擔(dān)心微軟和其他公司可能在決定什么對(duì)于AI模型是合適或不合適,因此她的團(tuán)隊(duì)添加了一種方式,讓Azure客戶切換模型所見和阻止的仇恨言論或暴力的過濾。
未來,Azure用戶還可以獲得嘗試觸發(fā)不安全輸出的用戶報(bào)告。Bird表示,這使系統(tǒng)管理員能夠確定哪些用戶是他們自己的紅隊(duì)成員,哪些可能是具有更惡意意圖的人。
Bird表示,這些安全功能立即“附加”到GPT-4和其他流行模型,如Llama2。但是,由于Azure的模型庫(kù)包含許多AI模型,因此使用較小、使用較少的開源系統(tǒng)的用戶可能需要手動(dòng)將安全功能指向這些模型。
微軟一直在利用AI增強(qiáng)其軟件的安全性,特別是隨著越來越多的客戶對(duì)使用Azure訪問AI模型感興趣。該公司還努力擴(kuò)展其提供的強(qiáng)大AI模型數(shù)量,最近與法國(guó)AI公司Mistral達(dá)成獨(dú)家協(xié)議,以在Azure上提供Mistral Large模型。
(舉報(bào))