要點(diǎn):
大語言模型(LLM)在各應(yīng)用中成功,但容易受到Prompt誘導(dǎo)越過安全防護(hù),即Jailbreak。研究以心理學(xué)視角提出的輕量級Jailbreak方法DeepInception,通過深度催眠LLM使其越獄,并規(guī)避內(nèi)置安全防護(hù)。
利用LLM的人格化特性構(gòu)建新型指令Prompt,通過嵌套場景實(shí)現(xiàn)自適應(yīng)的LLM越獄。實(shí)驗(yàn)證明DeepInception可持續(xù)領(lǐng)先于先前Jailbreak方法,揭示多個LLM的致命弱點(diǎn)。
呼吁加強(qiáng)對LLM自我越獄的關(guān)注,通過對LLM的人格化和心理特性提出Jailbreak概念。DeepInception的實(shí)驗(yàn)效果強(qiáng)調(diào)需要改進(jìn)大模型的防御機(jī)制。
站長之家(ChinaZ.com)11月22日 消息:近期,香港浸會大學(xué)的研究團(tuán)隊(duì)通過深度催眠的方法,提出了一種新穎的大語言模型(LLM)越獄攻擊——DeepInception。該研究從心理學(xué)視角出發(fā),揭示了LLM在應(yīng)對人類指令時可能失去自我防御的特性。
盡管先前的Jailbreak方法主要依賴于人工設(shè)計(jì)的對抗性Prompt,但這在黑盒模型中并不實(shí)用。在這種情況下,LLM往往受到道德和法律約束,直接的有害指令容易被模型檢測并拒絕。
項(xiàng)目地址:https://deepinception.github.io/
為了克服這一問題,研究團(tuán)隊(duì)提出了DeepInception,通過嵌套場景的指令Prompt,利用LLM的人格化特性催眠模型,使其越獄并回應(yīng)有害指令。該方法不僅領(lǐng)先于先前的Jailbreak工作,而且實(shí)現(xiàn)了可持續(xù)的越獄效果,無需額外誘導(dǎo)Prompt。文章中提到的Falcon、Vicuna、Llama-2和GPT-3.5/4/4V等LLM在自我越獄方面的致命弱點(diǎn)也得到揭示。
研究團(tuán)隊(duì)在實(shí)驗(yàn)證明了DeepInception的有效性的基礎(chǔ)上,呼吁更多人關(guān)注LLM的安全問題,并強(qiáng)調(diào)加強(qiáng)對自我越獄的防御。
研究的三個主要貢獻(xiàn):
基于LLM的人格化和自我迷失心理特性提出新的越獄攻擊概念與機(jī)制;
提供了DeepInception的Prompt模板,可用于不同攻擊目的;
實(shí)驗(yàn)證明DeepInception在Jailbreak方面的效果領(lǐng)先于其他相關(guān)工作。
這項(xiàng)研究引發(fā)對LLM安全性的新關(guān)注,強(qiáng)調(diào)了改進(jìn)大模型防御機(jī)制的緊迫性。通過心理學(xué)視角的獨(dú)特探索,DeepInception為理解和防范LLM越獄提供了有益的啟示。
(舉報)