有一些网页,内容优质,用户也可以正常访问,但是Baiduspider却无法正常访问并抓取,造成搜索结果覆盖率缺失,对百度搜索引擎、对站点都是一种损失,百度把这种情况叫“抓取异常”,下面来说集中常见的抓取异常的原因。
1、服务器连接异常。这有两种情况,一种是站点不稳定,Baiduspider尝试连接网站的服务器时出现暂时无法连接的情况;另一种是Baiduspider一直无法连接下网站的服务器。
出现这种情况通常是网站服务器过大,超负荷运转,也有可能是网站运行不正常。因此应该检查网站的Web服务器(如apache、iis)是否安装且正常运行,并使用浏览器检查主要页面能否正常访问、网站和主机还可能阻止了Baiduspider的访问,需要检查网站和主机的防火墙。
2、网络运营商异常。出现这种情况,应与网络服务运营商进行联系,或者购买拥有双线服务的空间或购买cdn服务。
3、DNS异常。当Baiduspider无法解析网站的IP时,会出现DNS异常。出现这种情况应该使用WHOIS或者host查询自己网站的IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新IP地址。
4、IP封禁。限制网络的出口IP地址,禁止该IP段的使用者进行内容访问,这里特指封禁了BaiduspiderIP。
5、UA封禁。服务器通过UA识别访问者的身份。当网站针对指定UA的访问,返回异常页面(如403,500)或跳转到其它页面的情况,即为UA封禁。
6、死链。包括协议死链和内容死链两种形式。
协议死链:页面的tcp状态、http状态明确表示的死链,常见的如404、403、503状态等。
内容死链:服务器返回状态是正常的,但内容已经变更为不存在。已删除或需要权限等与原内容无关的信息页面。
7、异常跳转。将网络请求重新指向其他位置即为跳转。异常跳转指的是以下几种情况:
- 当前该页面为无效页面(如内容已删除、死链等),直接跳转到前一目录或者首页,百度建议站长将该无效页面的入口超链接删除。
- 跳转到出错或无效页面
8、其它异常
- 针对百度refer的异常:网页针对来着百度的refer返回不同于正常内容的行为。
- 针对百度ua的异常:网页对百度ua返回不同于页面原内容的行为。
- JS跳转异常
- 压力过大引起的偶然封禁。
转载请注明出处:福建SEO优化学习_福建运营_福建网络营销学习__开拓者: » 页面抓取异常的原因