人工智能

Cloudflare公开批评Perplexity的抓取策略后 一些人开始为其辩护

字号+作者:cnBeta.COM 来源:cnBeta 2025-08-06 08:23 评论(创建话题) 收藏成功收藏本文

当Cloudflare周一指责人工智能搜索引擎Perplexity偷偷抓取网站数据,同时忽略网站阻止它的具体方法时,也有许多人为Perplexity辩护。他们认为,Perplexity违'...

当Cloudflare周一指责人工智能搜索引擎Perplexity偷偷抓取网站数据,同时忽略网站阻止它的具体方法时,也有许多人为Perplexity辩护。他们认为,Perplexity违背网站所有者意愿访问网站的行为虽然存在争议,但却是可以接受的。随着人工智能代理在互联网上的泛滥,这场争议必将愈演愈烈:代表用户访问网站的代理应该被视为机器人吗?还是应该被视为提出相同请求的人类?7K6品论天涯网

7K6品论天涯网

Cloudflare以向数百万个网站提供反机器人爬虫和其他网络安全服务而闻名。本质上,Cloudflare的测试用例包括:创建一个新网站,使用一个从未被任何机器人爬虫爬过的新域名;设置一个robots.txt文件,专门屏蔽Perplexity已知的AI爬虫程序;然后向Perplexity询问该网站的内容。Perplexity回答了这个问题。7K6品论天涯网

Cloudflare的研究人员发现,当该AI搜索引擎的网络爬虫本身被屏蔽时,它使用了“一个旨在模仿macOS上GoogleChrome的通用浏览器”。Cloudflare首席执行官MatthewPrince在X上发布了这项研究,并写道:“一些所谓的‘信誉良好’的AI公司的行为更像朝鲜黑客。是时候点名批评他们,并对他们进行严厉封杀了。”7K6品论天涯网

但许多人不同意普林斯的评估,认为这并非真正的不良行为。在X和HackerNews等网站上为Perplexity辩护的人指出,Cloudflare记录的似乎是,当用户询问特定网站时,AI会访问该网站。 7K6品论天涯网

“如果我作为人类请求一个网站,那么我就应该看到其内容,” HackerNews上的一位用户写道,并补充道,“为什么代表我访问该网站的大语言模型会与我的Firefox网络浏览器属于不同的法律类别?”7K6品论天涯网

Perplexity的一位发言人此前曾否认这些机器人是该公司的,并称Cloudflare的博客文章是Cloudflare的推销手段。然而,周二,Perplexity又发布了一篇博文为自己辩护(总体上是对Cloudflare的攻击),声称这种行为是该公司偶尔使用的第三方服务造成的。7K6品论天涯网

但Perplexity帖子的核心内容与其在线辩护者一样值得关注,帖子写道:“自动抓取和用户驱动抓取之间的区别不仅仅是技术层面的,而在于谁能够访问开放网络上的信息。这场争议表明,Cloudflare的系统从根本上不足以区分合法的人工智能助手和真正的威胁。”7K6品论天涯网

Perplexity的指控也并不完全公平。Prince和Cloudflare批评Perplexity的方法时,提出一个论点是OpenAI的做法与Perplexity不同。7K6品论天涯网

Cloudflare写道:“OpenAI是一家遵循这些最佳实践的领先人工智能公司的典范。他们尊重robots.txt文件,不会试图规避robots.txt指令或网络级别的阻止。ChatGPTAgent使用新提出的开放标准WebBotAuth对http请求进行签名。” 7K6品论天涯网

WebBotAuth是Cloudflare支持的标准,由互联网工程任务组开发,希望创建一种用于识别AI代理网络请求的加密方法。7K6品论天涯网

这场争论正值机器人活动重塑互联网之际。正如TechCrunch此前报道,机器人试图抓取大量内容来训练人工智能模型,这已成为一种威胁,尤其对小型网站而言。 7K6品论天涯网

根据Imperva上个月发布的《恶意机器人报告》,互联网历史上机器人活动首次超过人类在线活动,其中人工智能流量占比超过50%。其中大部分活动来自LLM。但报告还发现,恶意机器人目前占所有互联网流量的37%。这些活动包括从持续抓取数据到未经授权的登录尝试等各种行为。7K6品论天涯网

在大语言模型(LLM)出现之前,互联网普遍认为网站可以而且应该屏蔽大多数机器人活动,因为这些机器人活动经常使用验证码和其他服务(例如Cloudflare)。网站也有明确的动机与特定的良性行为者(例如Googlebot)合作,通过robots.txt指导Googlebot哪些内容不该被索引。Google索引了互联网,而互联网又将流量发送到网站。7K6品论天涯网

如今,大语言模型(LLM)正在吞噬越来越多的流量。Gartner预测,到2026年,搜索引擎流量将下降25%。目前,人们倾向于在LLM对网站最有价值的时候点击这些链接,也就是他们准备进行交易的时候。7K6品论天涯网

但如果人类像科技行业预测的那样,会主动寻求代理——帮我们安排旅行、预订晚餐、购物——那么网站屏蔽这些代理是否会损害他们的商业利益呢?X上的辩论完美地诠释了这一困境:7K6品论天涯网

“我希望Perplexity在我向它发出请求/任务时,能够代表我访问任何公开内容!”有人在Cloudflare谴责Perplexity的言论中写道。7K6品论天涯网

“如果网站所有者不想要怎么办?他们只是想让你直接访问他们的主页,看看他们的东西。”另一位用户反驳道,并指出创建内容的网站所有者想要的是流量和潜在的广告收入,而不是让Perplexity拿走。7K6品论天涯网

“这就是为什么我认为‘代理浏览’无法真正发挥作用——这个问题比人们想象的要难得多。大多数网站所有者会直接屏蔽,”第三位预测道。7K6品论天涯网

相关文章:7K6品论天涯网

Perplexity被指控抓取明确阻止AI抓取的网站7K6品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]