AI公司都在進行網(wǎng)絡(luò)爬蟲活動,但造成的影響程度各不相同。其中,OpenAI 的AI爬蟲占四分之一,而亞馬遜占 15%,Anthropic 占 4.3%。
站長之家(ChinaZ.com)3 月 26 日 消息:軟件開發(fā)者 Xe Iaso 迎來了一重大難題 —— 來自亞馬遜的大量AI爬蟲流量使其 Git 存儲庫服務(wù)不堪重負,反復(fù)導(dǎo)致服務(wù)不穩(wěn)定、停機等問題。盡管設(shè)置了標準的防御措施 —— 調(diào)整了 robots.txt 文件、屏蔽了已知的爬蟲用戶代理,并過濾了可疑流量 —— 但 Iaso 發(fā)現(xiàn),AI爬蟲美好繞過了這些阻力 —— 它們偽裝用戶代理,并使用住宅 IP 地址作為代理不斷輪換。
Iaso 在一篇題為 “絕望的呼救” 的博客文章中寫道:“屏蔽AI爬蟲機器人是徒勞的,它們會作假、會更改用戶代理、會使用住宅 IP 地址作為代理……我不想被迫關(guān)閉 Gitea 服務(wù)器 —— 但若有必要,我會這么做?!?/p>
Iaso 的經(jīng)歷凸顯了一個正在開源社區(qū)迅速蔓延的廣泛危機 —— 這些激進的AI爬蟲使得越來越多的‘社區(qū)維護基礎(chǔ)設(shè)施過載’情況出現(xiàn),對一些至關(guān)重要的公共資源造成了等同于 DDoS 攻擊的影響。根據(jù) LibreNews 最近的一份報告顯示:現(xiàn)在,一些開源項目高達 97% 的流量來自AI公司的機器人爬蟲,這極大地加重了帶寬成本、導(dǎo)致服務(wù)不穩(wěn)定、并給本就任務(wù)繁重的維護人員帶來了更大的負擔(dān)。
Fedora Pagure 項目的系統(tǒng)管理員團隊成員凱文?芬齊(Kevin Fenzi)在他的博客中報告稱,在多次嘗試減少AI爬蟲流量無果后,該項目不得不屏蔽了所有來自巴西的流量。
這種情況并非完全最近才出現(xiàn)。去年 12 月,為 Diaspora 社交網(wǎng)絡(luò)維護基礎(chǔ)設(shè)施的丹尼斯?舒伯特(Dennis Schubert)在發(fā)現(xiàn)來自AI公司爬蟲的請求占其總流量的 70% 后,憤怒地將這一情況稱為“簡直是針對整個互聯(lián)網(wǎng)的DDoS攻擊”。
這種情況在技術(shù)和經(jīng)濟方面都帶來了很高的成本。據(jù) Read the Docs 項目報告稱,屏蔽AI爬蟲后,其流量立即減少了 75%,從每天 800GB 降至每天 200GB。他們在博客文章《人工智能爬蟲需要更尊重他人》中寫道:這一變化使得他們的項目每月節(jié)省了大約 1500 美元的帶寬成本。
尤其是開源項目,面臨著更加嚴峻的挑戰(zhàn),由于開源項目依賴于公眾協(xié)作,且與商業(yè)實體相比,其運營資源通常有限。許多維護人員稱,為了避免被“發(fā)現(xiàn)”,這些AI爬蟲故意繞過標準的屏蔽措施,無視 robots.txt 指令,偽裝用戶代理,并輪換 IP 地址。
在 Hacker News 上,相關(guān)討論也如火如荼地上演著,評論者們對‘AI公司針對開源基礎(chǔ)設(shè)施的掠奪性行為’表達了深深的不滿。
除了消耗帶寬之外,這些爬蟲還經(jīng)常訪問一些占用大量資源的端點,比如 git blame、日志頁面等,這給本就有限的資源帶來了額外的壓力。SourceHut 創(chuàng)始人德魯?德沃(Drew DeVault)在他的博客中表示,這些爬蟲會訪問 “每個 git 日志的每一頁,以及存儲庫中的每一次提交記錄”,這種“攻擊”對代碼存儲庫來說尤其沉重。
這個問題不僅僅局限于基礎(chǔ)設(shè)施壓力。正如 LibreNews 所指出的,一些開源項目早在 2023 年 12 月就開始陸續(xù)收到AI生成的錯誤報告,Curl 項目的丹尼爾?斯滕伯格(Daniel Stenberg)在 2024 年 1 月的一篇博客文章中初次對此進行了闡述。這些報告乍一看似乎是合理的,但其中包含了“AI編造的漏洞”,浪費了開發(fā)者寶貴的時間。
實際上,“不問自取”可謂是AI公司一貫作風(fēng)。在 2022 年AI圖像生成器、AI聊天機器人等產(chǎn)品迅速爆發(fā)并引起人們對這種行為的關(guān)注之前,機器學(xué)習(xí)領(lǐng)域基本上都是在“無視版權(quán)”的操作下編纂數(shù)據(jù)集的。
雖然AI公司都在進行網(wǎng)絡(luò)爬蟲活動,但造成的影響程度各不相同。根據(jù)丹尼斯?舒伯特發(fā)布的 Diaspora 社交網(wǎng)絡(luò)流量日志分析結(jié)果顯示,該平臺的網(wǎng)絡(luò)流量中約四分之一來自 OpenAI 用戶代理的機器人,而亞馬遜占 15%,Anthropic 占 4.3%。
這些爬蟲可能是為了收集訓(xùn)練數(shù)據(jù)以構(gòu)建或完善大型語言模型,而另一些則可能是在用戶向人工智能助手詢問信息時執(zhí)行實時搜索。
這些爬蟲的訪問頻率尤其能說明問題。舒伯特觀察到,AI爬蟲“不只是爬取一個頁面后就離開……它們每 6 個小時就會回來一次”。這也表明這些AI爬蟲是在持續(xù)收集數(shù)據(jù),而非進行一次性的訓(xùn)練活動 —— 這些AI公司在利用這種爬取行為來“更新”它們的模型知識。
為了應(yīng)對這些“攻擊”,出現(xiàn)了一些新的防御工具來保護網(wǎng)站免受不必要的AI爬蟲侵擾。正如 Ars 在今年 1 月報道的那樣,一位被稱為 “Aaron” 的匿名程序員設(shè)計了一款名為 “Nepenthes” 的工具 —— 將爬蟲困在無盡的虛假內(nèi)容迷宮中。Aaron 明確將其描述為 “攻擊性惡意軟件”—— 目的是浪費AI公司的資源,并有可能會污染它們的訓(xùn)練數(shù)據(jù)。
Aaron 解釋說:“每當這些爬蟲從我的陷阱中獲取數(shù)據(jù)時,它們就消耗了資源 —— 不得不為此付出真金白銀,這有效地增加了它們的成本。鑒于它們目前都還沒有盈利,這對它們來說是個大問題?!?/p>
周五,Cloudflare 宣布推出 “AI Labyrinth”,這是一種類似于“Nepenthes”、但在商業(yè)上更為完善的工具。與被設(shè)計成“復(fù)仇者”的Nepenthes 不同,Cloudflare 將他們的工具定位為一種合法的安全功能,以保護網(wǎng)站所有者免受未經(jīng)授權(quán)的抓取行為。
Cloudflare 在其公告中解釋說:“當我們檢測到未經(jīng)授權(quán)的爬取行為時,我們不會屏蔽請求,而是會鏈接到一系列由AI生成的頁面,這些頁面看似非常有說服力,足以吸引爬蟲去瀏覽。” 該公司報告稱,AI爬蟲每天向其網(wǎng)絡(luò)發(fā)送超過 500 億次請求,占其處理的所有網(wǎng)絡(luò)流量的近 1%。
就目前的情況來看,AI生成內(nèi)容的迅速增長使網(wǎng)絡(luò)空間不堪重負,再加上AI公司激進的網(wǎng)絡(luò)爬蟲行為,都讓重要網(wǎng)絡(luò)資源的可持續(xù)性遭受著重大威脅。
如果AI公司能直接與受影響的社區(qū)合作,“負責(zé)任”的數(shù)據(jù)收集并非難事。然而,AI行業(yè)的巨頭們似乎并沒有啥采取更具合作性措施的想法。若是沒有有效的監(jiān)管,AI公司與受害平臺之間的“軍備競賽”很可能還會進一步升級。
(舉報)