亚马逊调查数据抓取滥用的指控

admin 2024年6月29日01:18:43评论1 views字数 1740阅读5分48秒阅读模式

亚马逊调查数据抓取滥用的指控

亚马逊云部门已对 Perplexity AI 展开调查。

据《连线》报道,问题在于这家 AI 搜索初创公司是否违反了亚马逊网络服务规则,抓取了试图阻止其这样做的网站。

一位不愿透露姓名的 AWS 发言人向《连线》杂志证实了该公司对 Perplexity 的调查。

《连线》杂志此前发现,这家初创公司(由杰夫·贝佐斯家族基金 Nvidia支持,最近估值达到 30 亿美元)似乎依赖于通过通用网络标准 Robots 排除协议禁止访问的抓取网站的内容。

虽然 Robots 排除协议不具有法律约束力,但服务条款通常具有约束力。

Robots 排除协议是一项已有数十年历史的网络标准,涉及在域上放置纯文本文件(如 wired.com/robots.txt),以指示哪些页面不应被自动机器人和爬虫访问。

虽然使用爬虫的公司可以选择忽略此协议,但大多数公司传统上都尊重它。亚马逊发言人告诉《连线》杂志,AWS 客户在爬取网站时必须遵守 robots.txt 标准。

该发言人在一份声明中表示:“AWS 的服务条款禁止客户使用我们的服务进行任何非法活动,我们的客户有责任遵守我们的条款和所有适用法律。”

6 月 11 日,《福布斯》报道称,Perplexity 至少窃取了一篇其文章,随后对 Perplexity 的做法展开了审查。《连线》杂志的调查证实了这一做法,并发现了与 Perplexity 的人工智能搜索聊天机器人相关的系统存在抓取滥用和剽窃行为的进一步证据。

《连线》杂志的母公司康泰纳仕的工程师使用 robots.txt 文件在其所有网站上屏蔽了 Perplexity 的爬虫。但《连线》杂志发现,该公司可以使用未公开的 IP 地址 44.221.181.252 访问一台服务器,该服务器在过去三个月内至少访问了康泰纳仕旗下的资产数百次,显然是为了抓取康泰纳仕的网站。

与 Perplexity 相关的机器似乎正在对禁止机器人访问其内容的新闻网站进行大规模抓取。《卫报》、《福布斯》和《纽约时报》的发言人也表示,他们多次在其服务器上检测到该 IP 地址。

《连线》杂志将该 IP 地址追踪到 AWS 上托管的虚拟机,即弹性计算云 (EC2) 实例,在我们询问使用 AWS 基础设施抓取禁止访问的网站是否违反了该公司的服务条款后,AWS 启动了调查。

上周,Perplexity 首席执行官 Aravind Srinivas 首先回应了调查,称我们向公司提出的问题“反映了对 Perplexity 和互联网运作方式的深刻而根本的误解”。

《连线》观察到的抓取 Condé Nast 网站和我们创建的测试网站的秘密 IP 地址是由一家提供网络抓取和索引服务的第三方公司运营的。他以保密协议为由拒绝透露该公司的名称。当被问及他是否会告诉第三方停止抓取时,他回答说“这很复杂”。

Perplexity 发言人 Sara Platnick 告诉《连线》杂志,该公司周三回应了亚马逊的询问,并将调查描述为标准程序。Platnick 表示,Perplexity 并未针对亚马逊的担忧对其运营做出任何改变。

我们的 PerplexityBot(在 AWS 上运行)尊重 robots.txt,我们确认 Perplexity 控制的服务不会以任何违反 AWS 服务条款的方式进行抓取。

不过,当用户在提示中输入特定 URL 时,PerplexityBot 将忽略 robots.txt,Platnick 将此用例描述为“非常罕见”。

当用户输入特定 URL 时,这不会触发抓取行为,代理代表用户检索 URL。其工作方式与用户自己访问页面、复制文章文本然后将其粘贴到系统中的方式相同。

Perplexity 的功能描述证实了连线的发现,即其聊天机器人在某些情况下会忽略 robots.txt。

Digital Content Next 是数字内容行业的贸易协会,其成员包括《纽约时报》、《华盛顿邮报》和康泰纳仕集团。去年,该组织分享了管理生成式人工智能的原则草案,以防止潜在的版权侵权。

首席执行官《连线》杂志,如果针对 Perplexity 的指控属实,那么该公司就违反了许多原则。

默认情况下,人工智能公司应该假设他们无权未经许可获取和重复使用出版商的内容。

如果 Perplexity 绕过服务条款或 robots.txt,应该发出红色警报,表明发生了不当行为。

原文始发于微信公众号(网络研究观):亚马逊调查数据抓取滥用的指控

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年6月29日01:18:43
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   亚马逊调查数据抓取滥用的指控https://cn-sec.com/archives/2898552.html

发表评论

匿名网友 填写信息