站長(zhǎng)之家(ChinaZ.com) 9月2日消息:根據(jù)人工智能內(nèi)容檢測(cè)器 Originality.AI 的最新數(shù)據(jù),全球前 1000 個(gè)網(wǎng)站中有近 20% 阻止爬蟲(chóng)機(jī)器人收集網(wǎng)絡(luò)數(shù)據(jù)用于 AI 服務(wù)。
在缺乏明確法律或監(jiān)管規(guī)定管理 AI 使用版權(quán)材料的情況下,大小不一的網(wǎng)站都自行采取措施。
OpenAI 于 8 月初推出了其 GPTBot 爬蟲(chóng),并宣布所收集到的數(shù)據(jù)「可能被用于改進(jìn)未來(lái)模型」,承諾排除付費(fèi)內(nèi)容并指導(dǎo)網(wǎng)站如何禁止該爬蟲(chóng)。隨后,包括《紐約時(shí)報(bào)》、路透社和 CNN 等知名新聞網(wǎng)站開(kāi)始阻止 GPTBot,并且許多其他網(wǎng)站也效仿。
根據(jù) Originality.AI 的數(shù)據(jù),在全球前 1000 個(gè)最受歡迎的網(wǎng)站中,阻止 OpenAI ChatGPT bot 的數(shù)量從 8 月 22 日 9.1% 增加到 8 月 29 日 12%。封鎖 ChatGPT bot 的最大網(wǎng)站是亞馬遜、Quora 和 Indeed。數(shù)據(jù)顯示,更大型的網(wǎng)站更有可能已經(jīng)封鎖了 AI 爬蟲(chóng)機(jī)器人。
Common Crawl Bot 是另一個(gè)定期收集某些 AI 服務(wù)使用的 Web 數(shù)據(jù)的爬蟲(chóng)程序,在全球前 1000 個(gè)頂級(jí)網(wǎng)站上被屏蔽率為 6.77%。
任何您可以從 Web 瀏覽器訪(fǎng)問(wèn)的頁(yè)面都可以被爬蟲(chóng)程序「抓取」,它們就像瀏覽器一樣運(yùn)行,但將材料存儲(chǔ)在數(shù)據(jù)庫(kù)中而不是向用戶(hù)顯示。
這就是搜索引擎如 Google 收集信息的方式。網(wǎng)站所有者一直有能力發(fā)布指令,告訴這些爬蟲(chóng)程序離開(kāi)他們的網(wǎng)站,但合作完全是自愿性質(zhì),并且惡意操作者可以忽略這些指令。
谷歌和其他網(wǎng)絡(luò)公司認(rèn)為其數(shù)據(jù)爬蟲(chóng)工作屬于合理使用范圍,但許多出版商和知識(shí)產(chǎn)權(quán)持有人長(zhǎng)期以來(lái)一直反對(duì)此做法,并且該公司因此面臨了多起訴訟。大型語(yǔ)言模型和生成式 AI 的興起使得這個(gè)問(wèn)題重新受到關(guān)注,因?yàn)?AI 公司派出自己的爬蟲(chóng)程序收集數(shù)據(jù)以培訓(xùn)其模型并提供聊天機(jī)器人所需素材。
自從 Google 和其他搜索網(wǎng)站將用戶(hù)引導(dǎo)至其支持廣告的網(wǎng)站后,一些出版商至少認(rèn)為允許搜索爬蟲(chóng)程序進(jìn)入其網(wǎng)站具有某種價(jià)值。然而,在 AI 時(shí)代中,出版商更積極地阻止爬蟲(chóng)程序進(jìn)入其網(wǎng)站,因?yàn)闀簳r(shí)沒(méi)有將其數(shù)據(jù)交給 AI 公司的好處。許多媒體公司目前正在與 AI 公司就以費(fèi)用向其授權(quán)數(shù)據(jù)進(jìn)行談判,但這些談判還處于早期階段。
在過(guò)去 20 年中被 Google 拿走了一些東西的媒體機(jī)構(gòu)對(duì) OpenAI 等快速商業(yè)化的 AI 服務(wù)持?jǐn)骋夂汀肝覀儾粫?huì)再上當(dāng)」的態(tài)度。據(jù) The Information 報(bào)道,OpenAI 預(yù)計(jì)在未來(lái)一年內(nèi)將帶來(lái)超過(guò) 10 億美元的收入。
新聞媒體公司正在努力找到平衡點(diǎn),在接受和抵制人工智能之間掙扎。一方面,該行業(yè)迫切需要尋找創(chuàng)新方法來(lái)提高勞動(dòng)密集型業(yè)務(wù)的利潤(rùn)率。
另一方面,在人們對(duì)新聞媒體公司的信任度處于歷史低點(diǎn)之際,將人工智能引入新聞編輯室的工作流程,會(huì)帶來(lái)具有挑戰(zhàn)性的道德問(wèn)題。
而如果太多的網(wǎng)絡(luò)阻礙人工智能爬蟲(chóng),它們的所有者可能會(huì)發(fā)現(xiàn)更難改進(jìn)和更新他們的人工智能產(chǎn)品——而且好的數(shù)據(jù)也變得越來(lái)越難找到。
Originality.AI 的發(fā)現(xiàn)顯示,前 1000 個(gè)網(wǎng)站中 GPTBot 的屏蔽率每周增加約 5%。
(舉報(bào))