Cloudflare 推出 AI 爬蟲防護機制，打造「付費爬蟲」新模式

ALL_news_25G07_EIJ8XxrPHw

隨著生成式 AI 崛起，許多網站內容正被模型大量抓取訓練，卻常未經授權也沒有回饋。為此，Cloudflare 推出一系列新功能，協助網站主控管 AI 爬蟲存取權限，並首度提出「付費爬蟲」機制，爭取內容創作者的公平權益。

AI 爬蟲亂象浮現，網站內容面臨「無償取用」風險
Cloudflare 推出五大新功能，全面封鎖或收費爬蟲存取
網站內容不再免費，AI 訓練成本將回歸內容創作者
網站主如何立即啟用防護？
企業內容保護邁入新階段，主動防範 AI 擷取風險

AI 爬蟲亂象浮現，網站內容面臨「無償取用」風險

過去幾年，AI 技術突飛猛進，許多 AI 公司為提升模型能力，開始大量爬取開放網頁內容進行訓練，包括新聞、部落格、產品資訊與使用者評論等。然而，大多數網站並未授權這些行為，甚至不清楚哪些 AI 爬蟲正在抓取自家內容。

Cloudflare 根據其全球超過 2,000 萬個網域的觀測數據指出，許多 AI 爬蟲的行為模糊不清，使用假冒的 User-Agent、繞過 robots.txt 限制，甚至來自未具名的 IP 來源，使網站主難以辨識與控管。根據最新統計，在 2024 年上半年，來自 AI 相關爬蟲的流量已佔所有自動化流量的 39.3%。

Cloudflare 推出五大新功能，全面封鎖或收費爬蟲存取

針對 AI 模型的未授權抓取行為，Cloudflare 宣布推出一系列控管工具，主打「讓 AI 不能不付費」，並協助網站主對網站內容的 AI 使用權利進行界定：

自動封鎖惡意 AI 爬蟲：Cloudflare 網站擁有者現在可在後台直接啟用「封鎖未授權 AI 爬蟲」選項，無需手動設定 rules，就能自動攔截包括 GPTBot、ClaudeBot、CCBot 等常見模型抓取器。
AI 爬蟲監控分析儀表板：新推出的 Analytics Dashboard 可追蹤 AI 相關爬蟲的存取頻率、來源 IP、使用者代理等資訊，讓網站主清楚知道「誰在抓、抓了什麼」。
付費爬蟲機制（Pay-Per-Crawl）：Cloudflare 正開發全新協議，允許網站主針對特定 AI 公司制定存取條款，實現「你要用我的內容，就該付費」的機制。
支援 robots.txt 和 HTTP header 控制：網站主可透過 Cloudflare 自動為站點加上 AI 訓練限制聲明，防止模型將網站內容納入訓練語料。
預設封鎖未標明身分的 AI crawler：Cloudflare 將對未正確設定 User-Agent 或來源異常的 AI crawler 實施預設封鎖，大幅降低內容外洩風險。

網站內容不再免費，AI 訓練成本將回歸內容創作者

Cloudflare 指出，AI 的內容取用過去建立在「先用再說」的灰色地帶，未來將透過技術與協議的方式，讓網站擁有者取得議價能力。根據 Cloudflare 公布的內部觀察，許多 AI 公司其實願意為高品質內容支付合理代價，只是缺乏一個標準化的收費與授權機制。

Cloudflare 表示，未來將協助建立一個「內容仲介平台」，讓網站主可以開啟或關閉特定 AI 爬蟲權限、設置收費門檻，甚至加入自訂授權條款，讓 AI 發展不再建立在內容創作者犧牲的基礎上。

網站主如何立即啟用防護？

Cloudflare 建議，所有使用 Cloudflare 網站防護與加速服務的用戶，只需前往「Security」→「Bots」設定頁面，勾選「Block AI Crawlers」，即可立即防止未授權的 AI 模型抓取網站內容。此外，也可搭配 Page Rules 或 WAF 自定義規則，依據 User-Agent 名稱、IP 屬性、訪問頻率等條件做進一步封鎖或限制。