Cloudflare 推出 AI 爬蟲防護機制,打造「付費爬蟲」新模式
隨著生成式 AI 崛起,許多網站內容正被模型大量抓取訓練,卻常未經授權也沒有回饋。為此,Cloudflare 推出一系列新功能,協助網站主控管 AI 爬蟲存取權限,並首度提出「付費爬蟲」機制,爭取內容創作者的公平權益。
AI 爬蟲亂象浮現,網站內容面臨「無償取用」風險
過去幾年,AI 技術突飛猛進,許多 AI 公司為提升模型能力,開始大量爬取開放網頁內容進行訓練,包括新聞、部落格、產品資訊與使用者評論等。然而,大多數網站並未授權這些行為,甚至不清楚哪些 AI 爬蟲正在抓取自家內容。
Cloudflare 根據其全球超過 2,000 萬個網域的觀測數據指出,許多 AI 爬蟲的行為模糊不清,使用假冒的 User-Agent、繞過 robots.txt 限制,甚至來自未具名的 IP 來源,使網站主難以辨識與控管。根據最新統計,在 2024 年上半年,來自 AI 相關爬蟲的流量已佔所有自動化流量的 39.3%。
Cloudflare 推出五大新功能,全面封鎖或收費爬蟲存取
針對 AI 模型的未授權抓取行為,Cloudflare 宣布推出一系列控管工具,主打「讓 AI 不能不付費」,並協助網站主對網站內容的 AI 使用權利進行界定:
- 自動封鎖惡意 AI 爬蟲:Cloudflare 網站擁有者現在可在後台直接啟用「封鎖未授權 AI 爬蟲」選項,無需手動設定 rules,就能自動攔截包括 GPTBot、ClaudeBot、CCBot 等常見模型抓取器。
- AI 爬蟲監控分析儀表板:新推出的 Analytics Dashboard 可追蹤 AI 相關爬蟲的存取頻率、來源 IP、使用者代理等資訊,讓網站主清楚知道「誰在抓、抓了什麼」。
- 付費爬蟲機制(Pay-Per-Crawl):Cloudflare 正開發全新協議,允許網站主針對特定 AI 公司制定存取條款,實現「你要用我的內容,就該付費」的機制。
- 支援 robots.txt 和 HTTP header 控制:網站主可透過 Cloudflare 自動為站點加上 AI 訓練限制聲明,防止模型將網站內容納入訓練語料。
- 預設封鎖未標明身分的 AI crawler:Cloudflare 將對未正確設定 User-Agent 或來源異常的 AI crawler 實施預設封鎖,大幅降低內容外洩風險。
網站內容不再免費,AI 訓練成本將回歸內容創作者
Cloudflare 指出,AI 的內容取用過去建立在「先用再說」的灰色地帶,未來將透過技術與協議的方式,讓網站擁有者取得議價能力。根據 Cloudflare 公布的內部觀察,許多 AI 公司其實願意為高品質內容支付合理代價,只是缺乏一個標準化的收費與授權機制。
Cloudflare 表示,未來將協助建立一個「內容仲介平台」,讓網站主可以開啟或關閉特定 AI 爬蟲權限、設置收費門檻,甚至加入自訂授權條款,讓 AI 發展不再建立在內容創作者犧牲的基礎上。
網站主如何立即啟用防護?
Cloudflare 建議,所有使用 Cloudflare 網站防護與加速服務的用戶,只需前往「Security」→「Bots」設定頁面,勾選「Block AI Crawlers」,即可立即防止未授權的 AI 模型抓取網站內容。此外,也可搭配 Page Rules 或 WAF 自定義規則,依據 User-Agent 名稱、IP 屬性、訪問頻率等條件做進一步封鎖或限制。
企業內容保護邁入新階段,主動防範 AI 擷取風險
生成式 AI 技術迅速發展,企業網站上的產品說明、技術文件、部落格與客戶回饋等原創內容,正面臨遭模型擷取、重組與再利用的風險,不僅牽涉智慧財產,更可能影響商業利益與品牌形象。
作為 Cloudflare 在台灣的策略合作夥伴,樂雲智能建議企業善用其全新「AI Content Control」功能,即時封鎖未授權 AI 爬蟲、建立明確的內容授權政策,守護資料主權,同時保留未來與 AI 業者合作的彈性空間。
※資料來源:Cloudflare 官方部落格《Content Independence Day: No AI Crawl Without Compensation》