站長(zhǎng)之家(ChinaZ.com) 7月11日 消息:根據(jù)《Patterns》雜志周一發(fā)表的一項(xiàng)研究,超過(guò)一半的時(shí)間里,AI檢測(cè)器錯(cuò)誤地將非英語(yǔ)母語(yǔ)者的寫(xiě)作判斷為機(jī)器生成。這種錯(cuò)誤分類(lèi)可能對(duì)求職者、學(xué)生和其他經(jīng)常根據(jù)寫(xiě)作能力評(píng)估的人造成困擾,也可能使教師、教授和招聘經(jīng)理難以判斷作品的真實(shí)性。
多家公司已開(kāi)始開(kāi)發(fā)AI檢測(cè)軟件,旨在區(qū)分人類(lèi)寫(xiě)作和機(jī)器生成的內(nèi)容,但大多數(shù)工具的效果不佳,而且使用場(chǎng)景有限。
研究人員使用七個(gè)廣泛使用的GPT檢測(cè)器對(duì)91篇非英語(yǔ)母語(yǔ)者的TOEFL(外語(yǔ)口語(yǔ)能力測(cè)試)文章進(jìn)行評(píng)估。雖然這些檢測(cè)器能夠正確將超過(guò)90%的八年級(jí)學(xué)生的文章判斷為人類(lèi)寫(xiě)作,但在對(duì)非英語(yǔ)母語(yǔ)者的TOEFL文章進(jìn)行分類(lèi)時(shí),檢測(cè)器的表現(xiàn)就不盡如人意了。
在所有七個(gè)GPT檢測(cè)器中,非英語(yǔ)母語(yǔ)者的TOEFL文章的平均誤檢率為61.3%。其中一款檢測(cè)器將近98%的TOEFL文章錯(cuò)誤地判斷為機(jī)器生成。所有檢測(cè)器一致地將約20%的TOEFL文章判斷為機(jī)器生成,盡管它們實(shí)際上是人類(lèi)寫(xiě)的。
大多數(shù)AI檢測(cè)器通過(guò)衡量文本的“困惑度”來(lái)運(yùn)作。困惑度是文本中一個(gè)詞在給定上下文中的預(yù)測(cè)難度的度量。由于非英語(yǔ)母語(yǔ)者在某種語(yǔ)言中的寫(xiě)作通常具有相對(duì)有限的詞匯和可預(yù)測(cè)的語(yǔ)法范圍,這可能導(dǎo)致更容易預(yù)測(cè)的句子和段落。研究人員發(fā)現(xiàn),通過(guò)減少TOEFL樣本文章中的詞重復(fù),可以顯著減少AI檢測(cè)軟件中的誤判。相反,簡(jiǎn)化八年級(jí)學(xué)生文章中的語(yǔ)言會(huì)導(dǎo)致更多文章被錯(cuò)誤地判斷為機(jī)器生成。
這項(xiàng)研究指出,AI檢測(cè)工具經(jīng)常將非英語(yǔ)母語(yǔ)者的寫(xiě)作錯(cuò)誤地判斷為機(jī)器生成,可能對(duì)他們?cè)谇舐毷袌?chǎng)、學(xué)術(shù)環(huán)境和互聯(lián)網(wǎng)上的存在產(chǎn)生重大影響。當(dāng)前的AI檢測(cè)工具還需要顯著改進(jìn),因此在評(píng)估或教育環(huán)境中不建議使用,特別是在評(píng)估非英語(yǔ)母語(yǔ)者的作品時(shí)。然而,由于AI檢測(cè)通常依賴(lài)于相似的AI模型,很難想象它們?nèi)绾握嬲龑W(xué)會(huì)超越自己。這個(gè)問(wèn)題的解決需要更進(jìn)一步的研究和技術(shù)創(chuàng)新。
(舉報(bào))