要點(diǎn):
1. 大模型邏輯推理表現(xiàn)受前提順序影響,打亂順序可導(dǎo)致性能下降30%。
2. 改變前提敘述順序?qū)Υ竽P屯评肀憩F(xiàn)有重大影響,Gemini Pro、GPT-3.5-Turbo表現(xiàn)下降。
3. 邏輯推理中改變前提順序讓LLM性能大幅下降,需要進(jìn)一步研究解決。
站長(zhǎng)之家(ChinaZ.com)2月26日 消息:近期,谷歌DeepMind和斯坦福的研究人員發(fā)現(xiàn)大型語(yǔ)言模型在處理邏輯推理任務(wù)時(shí),前提信息的呈現(xiàn)順序?qū)ζ浔憩F(xiàn)具有決定性影響。
在邏輯推理和數(shù)學(xué)問(wèn)題中,前提按照邏輯自然順序排列時(shí),模型表現(xiàn)更佳。對(duì)于大型語(yǔ)言模型,改變前提敘述順序會(huì)導(dǎo)致性能大幅下降,尤其是在添加分散注意力規(guī)則的情況下。
論文地址:https://arxiv.org/pdf/2402.08939.pdf
研究人員發(fā)現(xiàn),通過(guò)打亂GSM8K測(cè)試集中問(wèn)題陳述的順序構(gòu)建R-GSM測(cè)試集,幾乎所有主流LLM在新測(cè)試集上表現(xiàn)下降。盡管人類(lèi)在邏輯推理時(shí)對(duì)前提順序也有偏好,但LLM更容易受到順序效應(yīng)影響,這可能與自回歸模型訓(xùn)練目標(biāo)和數(shù)據(jù)偏差有關(guān)。
改變前提順序可以使模型準(zhǔn)確率下降超過(guò)30%,不同順序?qū)Σ煌P陀绊懸膊煌?,如GPT模型在反向排序下表現(xiàn)較好。研究人員還發(fā)現(xiàn)加入更多干擾規(guī)則和多種前提順序會(huì)使問(wèn)題更加復(fù)雜,需要進(jìn)一步研究解決。在邏輯推理中,前提順序?qū)Υ笮驼Z(yǔ)言模型推理表現(xiàn)有重大影響,如何應(yīng)對(duì)這一問(wèn)題仍是一個(gè)挑戰(zhàn)。
(舉報(bào))