百度Spider抓取诊断异常信息: socket读写错误怎么办?
假设你的网站一直都没有被百度收录,首先要在百度搜索资源平台进行蜘蛛抓取诊断。
点此进入百度搜索资源平台抓取诊断工具
百度爬虫抓取诊断链接失败怎么办?
如果百度爬虫抓取诊断好几次都失败,防火墙可能已经阻止了爬虫程序。
百度搜索资源平台 > 抓取诊断 > 抓取异常信息: socket 读写错误 ▼
我没有在服务器上拦截百度蜘蛛,所以问题应该是Cloudflare的WAF!
登录Cloudflare → 安全性 → WAF → 防火墙规则 → 创建防火墙规则
百度爬虫Sitemap抓取失败、连接超时怎么回事?
如果在百度搜索资源平台提交Sitemap文件地址,出现抓取失败、连接超时的问题 ▼
百度爬虫抓取Sitemap地图失败解决方案
登录Cloudflare → 安全性 → WAF → 防火墙规则 → 创建防火墙规则 ▼
- 字段,选择“用户代理”
- 运算符,选择“包含”
- 添加新的用户代理,点击最后的“Or”
- 值,分别输入以下百度蜘蛛UA用户代理:
完成后再次测试取,结果返回HTTP头200,表示抓取成功 ▼
其它蜘蛛和爬虫的用户代理,也可以用同样的方法自行搜索。