全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容

首页 > AI资讯 > 行业动态 > 全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容

全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容

新火种 2023-10-07

新火种(xhz.cn) 9月2日消息:根据人工智能内容检测器 Originality.AI 的最新数据，全球前 1000 个网站中有近 20% 阻止爬虫机器人收集网络数据用于 AI 服务。

OpenAI，ChatGPT，人工智能，AI

在缺乏明确法律或监管规定管理 AI 使用版权材料的情况下，大小不一的网站都自行采取措施。

OpenAI 于 8 月初推出了其 GPTBot 爬虫，并宣布所收集到的数据「可能被用于改进未来模型」，承诺排除付费内容并指导网站如何禁止该爬虫。随后，包括《纽约时报》、路透社和 CNN 等知名新闻网站开始阻止 GPTBot，并且许多其他网站也效仿。

根据 Originality.AI 的数据，在全球前 1000 个最受欢迎的网站中，阻止 OpenAI ChatGPT bot 的数量从 8 月 22 日 9.1％增加到 8 月 29 日 12％。封锁 ChatGPT bot 的最大网站是亚马逊、Quora 和 Indeed。数据显示，更大型的网站更有可能已经封锁了 AI 爬虫机器人。

Common Crawl Bot 是另一个定期收集某些 AI 服务使用的 Web 数据的爬虫程序，在全球前 1000 个顶级网站上被屏蔽率为 6.77％。

任何您可以从 Web 浏览器访问的页面都可以被爬虫程序「抓取」，它们就像浏览器一样运行，但将材料存储在数据库中而不是向用户显示。

这就是搜索引擎如 Google 收集信息的方式。网站所有者一直有能力发布指令，告诉这些爬虫程序离开他们的网站，但合作完全是自愿性质，并且恶意操作者可以忽略这些指令。

谷歌和其他网络公司认为其数据爬虫工作属于合理使用范围，但许多出版商和知识产权持有人长期以来一直反对此做法，并且该公司因此面临了多起诉讼。大型语言模型和生成式 AI 的兴起使得这个问题重新受到

自从 Google 和其他搜索网站将用户引导至其支持广告的网站后，一些出版商至少认为允许搜索爬虫程序进入其网站具有某种价值。然而，在 AI 时代中，出版商更积极地阻止爬虫程序进入其网站，因为暂时没有将其数据交给 AI 公司的好处。许多媒体公司目前正在与 AI 公司就以费用向其授权数据进行谈判，但这些谈判还处于早期阶段。

在过去 20 年中被 Google 拿走了一些东西的媒体机构对 OpenAI 等快速商业化的 AI 服务持敌意和「我们不会再上当」的态度。据 The Information 报道，OpenAI 预计在未来一年内将带来超过 10 亿美元的收入。

新闻媒体公司正在努力找到平衡点，在接受和抵制人工智能之间挣扎。一方面，该行业迫切需要寻找创新方法来提高劳动密集型业务的利润率。

另一方面，在人们对新闻媒体公司的信任度处于历史低点之际，将人工智能引入新闻编辑室的工作流程，会带来具有挑战性的道德问题。

而如果太多的网络阻碍人工智能爬虫，它们的所有者可能会发现更难改进和更新他们的人工智能产品——而且好的数据也变得越来越难找到。

Originality.AI 的发现显示，前 1000 个网站中 GPTBot 的屏蔽率每周增加约 5%。

Tags:

爬虫人工智能

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容

工信部辛国斌：深化5G+工业互联网和人工智能赋能加快数字技术在制造业全行业全链条的应用

工信部辛国斌：深化5G+工业互联网和人工智能赋能，加快数字技术在制造业全行业全链条的应用

徐直军：华为核心战略是抓住人工智能变革机遇，提供可持续算力解决方案

传音控股与联发科技共建人工智能联合实验室

美国SEC主席：人工智能工具单一化会给金融业带来风险

热门文章

腾讯混元训练营开营，共创50多个大模型应用场景

性能不等于销量NVIDIA最新AI芯片市场遇冷！客户偏爱成熟老产品

朱啸虎看不上的赛道，腾讯投了150亿独角兽

iOS18.4上线中文版苹果AI：但请不要期待Apple智能

语音界Deepseek！百度最新跨模态端到端语音交互，成本最高降90%

腾讯构建AI新矩阵：四大产品线合龙

小米真AI智能眼镜下月发布：双芯架构、自带镜头

DeepSeekV3模型重磅升级！腾讯/微美全息加速AI大模型“上车”多场景落地

微软被曝关闭上海人工智能实验室：Logo被移除办公设备清空