防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎

防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎

    正在检查是否收录...

快科技8月22日消息,据报道,近日百度百科开始屏蔽谷歌和必应等大多数搜索引擎,预计是为了阻止这些搜索引擎和其他爬虫,未经授权抓取百度百科的内容用于训练AI。

百度百科的robots.txt文件显示,目前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许抓取其内容。

谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他一切搜索引擎爬虫均被明确禁止抓取百度百科的内容。

虽然360搜索没有在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,所以360搜索和其他搜索引擎也都是被屏蔽的。

不过百度百科这种做法其实也只是防君子不防小人,肯定还有很多爬虫通过各种方式继续抓取内容然后拿去训练AI。

总结

**百度百科屏蔽多数搜索引擎以保护内容**
近日,快科技报道指出,百度百科已采取行动,通过修改其robots.txt文件,屏蔽了包括谷歌、必应在内的多数搜索引擎及爬虫,以阻止这些平台未经授权抓取其内容用于AI训练。目前,仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许访问和抓取百度百科的内容。
此举意味着,谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider等搜索引擎及其爬虫均已被明确禁止访问百度百科的内容。尽管360搜索并未在封禁列表中单独提及,但由于百度百科采取了非白名单爬虫全面禁止的策略,360搜索同样无法抓取其内容。
然而,有分析指出,百度百科的这种做法虽然能在一定程度上减少未经授权的内容抓取,但并不能完全杜绝。技术高超的爬虫仍可能通过各种手段绕过限制,继续抓取内容用于AI训练。因此,这种做法更多是一种防御措施,旨在提高内容被非法使用的门槛。 搜索引擎ideaso浏览器ai训练bot谷歌搜索内容抓取
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-19509.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

AIGC:基于ON-DO模型的AA游戏脚本规范(AA Game Script)

上一篇

【AI绘画】Midjourney前置指令/settings设置详解

下一篇
  • 复制图片
按住ctrl可打开默认菜单