中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

<td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>

<rp id="h1kkc"></rp>

AI爬蟲堪比DDoS攻擊，占流高達97%，OpenAI成“黑手”

2025-03-26 10:52 · 稿源：站長之家

病毒網(wǎng)絡(luò)攻擊

AI公司都在進行網(wǎng)絡(luò)爬蟲活動，但造成的影響程度各不相同。其中，OpenAI 的AI爬蟲占四分之一，而亞馬遜占 15%，Anthropic 占 4.3%。

站長之家(ChinaZ.com)3 月 26 日消息:軟件開發(fā)者 Xe Iaso 迎來了一重大難題 —— 來自亞馬遜的大量AI爬蟲流量使其 Git 存儲庫服務(wù)不堪重負，反復(fù)導(dǎo)致服務(wù)不穩(wěn)定、停機等問題。盡管設(shè)置了標準的防御措施 —— 調(diào)整了 robots.txt 文件、屏蔽了已知的爬蟲用戶代理，并過濾了可疑流量 —— 但 Iaso 發(fā)現(xiàn)，AI爬蟲美好繞過了這些阻力 —— 它們偽裝用戶代理，并使用住宅 IP 地址作為代理不斷輪換。

Iaso 在一篇題為 “絕望的呼救” 的博客文章中寫道：“屏蔽AI爬蟲機器人是徒勞的，它們會作假、會更改用戶代理、會使用住宅 IP 地址作為代理……我不想被迫關(guān)閉 Gitea 服務(wù)器 —— 但若有必要，我會這么做?！?/p>

Iaso 的經(jīng)歷凸顯了一個正在開源社區(qū)迅速蔓延的廣泛危機 —— 這些激進的AI爬蟲使得越來越多的‘社區(qū)維護基礎(chǔ)設(shè)施過載’情況出現(xiàn)，對一些至關(guān)重要的公共資源造成了等同于 DDoS 攻擊的影響。根據(jù) LibreNews 最近的一份報告顯示：現(xiàn)在，一些開源項目高達 97% 的流量來自AI公司的機器人爬蟲，這極大地加重了帶寬成本、導(dǎo)致服務(wù)不穩(wěn)定、并給本就任務(wù)繁重的維護人員帶來了更大的負擔(dān)。

Fedora Pagure 項目的系統(tǒng)管理員團隊成員凱文?芬齊（Kevin Fenzi）在他的博客中報告稱，在多次嘗試減少AI爬蟲流量無果后，該項目不得不屏蔽了所有來自巴西的流量。

這種情況并非完全最近才出現(xiàn)。去年 12 月，為 Diaspora 社交網(wǎng)絡(luò)維護基礎(chǔ)設(shè)施的丹尼斯?舒伯特（Dennis Schubert）在發(fā)現(xiàn)來自AI公司爬蟲的請求占其總流量的 70% 后，憤怒地將這一情況稱為“簡直是針對整個互聯(lián)網(wǎng)的DDoS攻擊”。

這種情況在技術(shù)和經(jīng)濟方面都帶來了很高的成本。據(jù) Read the Docs 項目報告稱，屏蔽AI爬蟲后，其流量立即減少了 75%，從每天 800GB 降至每天 200GB。他們在博客文章《人工智能爬蟲需要更尊重他人》中寫道：這一變化使得他們的項目每月節(jié)省了大約 1500 美元的帶寬成本。

尤其是開源項目，面臨著更加嚴峻的挑戰(zhàn)，由于開源項目依賴于公眾協(xié)作，且與商業(yè)實體相比，其運營資源通常有限。許多維護人員稱，為了避免被“發(fā)現(xiàn)”，這些AI爬蟲故意繞過標準的屏蔽措施，無視 robots.txt 指令，偽裝用戶代理，并輪換 IP 地址。

宇宙飛船，黑客，外星人入侵

在 Hacker News 上，相關(guān)討論也如火如荼地上演著，評論者們對‘AI公司針對開源基礎(chǔ)設(shè)施的掠奪性行為’表達了深深的不滿。

除了消耗帶寬之外，這些爬蟲還經(jīng)常訪問一些占用大量資源的端點，比如 git blame、日志頁面等，這給本就有限的資源帶來了額外的壓力。SourceHut 創(chuàng)始人德魯?德沃（Drew DeVault）在他的博客中表示，這些爬蟲會訪問 “每個 git 日志的每一頁，以及存儲庫中的每一次提交記錄”，這種“攻擊”對代碼存儲庫來說尤其沉重。

這個問題不僅僅局限于基礎(chǔ)設(shè)施壓力。正如 LibreNews 所指出的，一些開源項目早在 2023 年 12 月就開始陸續(xù)收到AI生成的錯誤報告，Curl 項目的丹尼爾?斯滕伯格（Daniel Stenberg）在 2024 年 1 月的一篇博客文章中初次對此進行了闡述。這些報告乍一看似乎是合理的，但其中包含了“AI編造的漏洞”，浪費了開發(fā)者寶貴的時間。

實際上，“不問自取”可謂是AI公司一貫作風(fēng)。在 2022 年AI圖像生成器、AI聊天機器人等產(chǎn)品迅速爆發(fā)并引起人們對這種行為的關(guān)注之前，機器學(xué)習(xí)領(lǐng)域基本上都是在“無視版權(quán)”的操作下編纂數(shù)據(jù)集的。

雖然AI公司都在進行網(wǎng)絡(luò)爬蟲活動，但造成的影響程度各不相同。根據(jù)丹尼斯?舒伯特發(fā)布的 Diaspora 社交網(wǎng)絡(luò)流量日志分析結(jié)果顯示，該平臺的網(wǎng)絡(luò)流量中約四分之一來自 OpenAI 用戶代理的機器人，而亞馬遜占 15%，Anthropic 占 4.3%。

微信圖片_20250326105159.png

這些爬蟲可能是為了收集訓(xùn)練數(shù)據(jù)以構(gòu)建或完善大型語言模型，而另一些則可能是在用戶向人工智能助手詢問信息時執(zhí)行實時搜索。

這些爬蟲的訪問頻率尤其能說明問題。舒伯特觀察到，AI爬蟲“不只是爬取一個頁面后就離開……它們每 6 個小時就會回來一次”。這也表明這些AI爬蟲是在持續(xù)收集數(shù)據(jù)，而非進行一次性的訓(xùn)練活動 —— 這些AI公司在利用這種爬取行為來“更新”它們的模型知識。

為了應(yīng)對這些“攻擊”，出現(xiàn)了一些新的防御工具來保護網(wǎng)站免受不必要的AI爬蟲侵擾。正如 Ars 在今年 1 月報道的那樣，一位被稱為 “Aaron” 的匿名程序員設(shè)計了一款名為 “Nepenthes” 的工具 —— 將爬蟲困在無盡的虛假內(nèi)容迷宮中。Aaron 明確將其描述為 “攻擊性惡意軟件”—— 目的是浪費AI公司的資源，并有可能會污染它們的訓(xùn)練數(shù)據(jù)。

Aaron 解釋說：“每當這些爬蟲從我的陷阱中獲取數(shù)據(jù)時，它們就消耗了資源 —— 不得不為此付出真金白銀，這有效地增加了它們的成本。鑒于它們目前都還沒有盈利，這對它們來說是個大問題?！?/p>

周五，Cloudflare 宣布推出 “AI Labyrinth”，這是一種類似于“Nepenthes”、但在商業(yè)上更為完善的工具。與被設(shè)計成“復(fù)仇者”的Nepenthes 不同，Cloudflare 將他們的工具定位為一種合法的安全功能，以保護網(wǎng)站所有者免受未經(jīng)授權(quán)的抓取行為。

Cloudflare 在其公告中解釋說：“當我們檢測到未經(jīng)授權(quán)的爬取行為時，我們不會屏蔽請求，而是會鏈接到一系列由AI生成的頁面，這些頁面看似非常有說服力，足以吸引爬蟲去瀏覽。” 該公司報告稱，AI爬蟲每天向其網(wǎng)絡(luò)發(fā)送超過 500 億次請求，占其處理的所有網(wǎng)絡(luò)流量的近 1%。

就目前的情況來看，AI生成內(nèi)容的迅速增長使網(wǎng)絡(luò)空間不堪重負，再加上AI公司激進的網(wǎng)絡(luò)爬蟲行為，都讓重要網(wǎng)絡(luò)資源的可持續(xù)性遭受著重大威脅。

如果AI公司能直接與受影響的社區(qū)合作，“負責(zé)任”的數(shù)據(jù)收集并非難事。然而，AI行業(yè)的巨頭們似乎并沒有啥采取更具合作性措施的想法。若是沒有有效的監(jiān)管，AI公司與受害平臺之間的“軍備競賽”很可能還會進一步升級。

（舉報）

相關(guān)推薦

關(guān)鍵詞：

每月高達 20000 美金，OpenAI 們瞄準了“高價會員”服務(wù)

為了賺更多的錢，AI公司們開始集體把目光放在了“高價會員”計劃上……

?openai ?ChatGPT ?Deepseek
Antropic加入“AI語音助手”賽道，能追上OpenAI、谷歌們嗎？

隨著 AI 語音產(chǎn)品的出現(xiàn)，人們對其模仿他人說話風(fēng)格的擔(dān)憂也在加劇……

?Anthropic ?AI語音助手 ?Claude
谷歌打響“AI價格戰(zhàn)”，OpenAI硬著頭皮跟注，但，前浪依舊是大爺

你大爺終究還是你大爺……

?谷歌 ?openai ?ai業(yè)務(wù)
OpenAI 要砸 30 億美金收購 AI 編碼工具 Windsurf

若收購成功，OpenAI 將直接與在快速發(fā)展的 AI 編碼領(lǐng)域提供服務(wù)的 Anthropic、微軟旗下的 GitHub、Anyscale 等公司展開競爭……

?openai ?Windsurf ?AI編程
OpenAI 也要搞 SNS 了？外媒：原型已出！

憑借 ChatGPT 的吉卜力風(fēng)格圖像轉(zhuǎn)換功能而獲得巨大人氣的 OpenAI，也要進軍 SNS 市場了……

?OpenAI ?社交媒體 ?社交媒體平臺
“吉卜力被廉價對待，不可原諒” ，OpenAI 會被起訴嗎？

日本業(yè)界對 ChatGPT 的“侵權(quán)行為”態(tài)度不一，而吉卜力工作室卻一直保持沉默，雙方產(chǎn)生版權(quán)糾紛的可能性幾何？

?ChatGPT ?吉卜力工作室 ?版權(quán)糾紛
薦國產(chǎn)六大推理模型激戰(zhàn)OpenAI？

2025年春節(jié)前夕，DeepSeek-R1模型發(fā)布，標志著中國AI進入推理模型新時代。文章梳理了國產(chǎn)大模型發(fā)展歷程：從2022年ChatGPT引發(fā)國內(nèi)追趕OpenAI熱潮，到2023年"百模大戰(zhàn)"，再到2024年"AI六小虎"格局形成。重點分析了六大國產(chǎn)推理模型（DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊）的技術(shù)特點與市場表現(xiàn)，指出國產(chǎn)模型在性能上已接近GPT-4水平。特別強調(diào)科大訊飛星火X1憑借全國產(chǎn)化技術(shù)路線獲得政企青睞，以及DeepSeek-R1以560萬美元超低成本實現(xiàn)高性能的突破。文章還探討了英偉達芯片斷供危機下，國產(chǎn)全棧技術(shù)路徑的重要性，認為自主可控將成為對抗國際不確定性的關(guān)鍵。最后指出，隨著推理模型成為競爭焦點，國產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。

?AI技術(shù) ?DeepSeek-R1 ?云服務(wù)器
程序員危！微軟CEO納德拉：公司高達30%代碼是AI寫的

微軟CEO納德拉在Meta的LlamaCon大會上透露，微軟代碼庫中20%-30%的代碼由AI生成，其中Python應(yīng)用進展最快，C語言相對較慢。微軟CTO凱文·斯科特預(yù)測到2030年，95%代碼將由AI生成。谷歌CEO皮查伊也表示，谷歌超30%代碼由AI生成。Meta CEO扎克伯格則未透露具體數(shù)據(jù)。由于缺乏統(tǒng)一的AI代碼衡量標準，這些數(shù)據(jù)僅供參考。（140字）

?AI ?代碼生成 ?微軟與Meta
GPT-4退役，但，OpenAI接下來準備了“很多好消息”！

OpenAI 的重大調(diào)整仍在繼續(xù)。

?OpenAI ?GPT-4 ?自然語言處理
斥資36億！OpenAI考慮收購前蘋果設(shè)計師AI初創(chuàng)公司

據(jù)報道，OpenAI近期正就收購AI硬件初創(chuàng)公司ioProducts展開深入談判，這筆潛在交易或?qū)⒅厮苋斯ぶ悄苡布袌龈窬?。OpenAI高層曾考慮以至少5億美元的價格收購這家由OpenAICEO薩姆阿爾特曼與前蘋果傳奇設(shè)計師喬納森艾維聯(lián)合創(chuàng)立的公司。這筆交易或?qū)㈤_啟AI巨頭與頂尖工業(yè)設(shè)計團隊強強聯(lián)合的新模式，為人工智能技術(shù)的終端落地開辟全新路徑。

?OpenAI收購 ?AI硬件 ?io

熱文

3 天
7天

站長商機

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM