总结搜索引擎蜘蛛抓取不到页面的原因及改善措施
在诊断过程中,我们会遇到这样的问题。有些网页内容很好,用户可以正常访问。然而,搜索引擎蜘蛛只是不能正常访问和抓取它们,导致搜索结果覆盖率不足,这是百度等搜索引擎和网站的损失。百度称之为“抢夺例外”。对于很多内容不能正常抓取的网站,100搜索引擎会认为网站存在用户体验的缺陷,降低网站的评价,在抓取、索引、排序等方面会受到一定程度的影响,从而终影响网站从搜索引擎获取流量。
下面总结一些常见的搜索引擎蜘蛛抓取不到的原因,供大家参考。
有两种服务器连接异常:一是网站不稳定,百度蜘蛛在尝试连接到你的网站服务器时暂时无法连接;二是百度蜘蛛已经无法连接到你的网站服务器。
服务器连接异常的原因通常是您的网站服务器太大和过载。您网站上的程序也可能无法正常工作。此方法可以检查空间的服务器(如Apache、IIS)是否已安装或正常运行,或者空间的防火墙是否阻止蜘蛛爬网。
有两种网络运营商:电信、联通和移动。百度蜘蛛无法通过运营商的网络访问你的网站,所以你需要联系运营商,或者购买更好的服务空间或CDN服务。
当百度蜘蛛无法解析你的网站IP时,就会出现DNS异常。可能是你的网站IP地址不对,或者百度蜘蛛被域名服务商禁止。您可以使用whois或host来检查您网站的IP地址是否正确和可解析。如果没有,请与域名服务提供商联系。例如,pro犁SEO的域名提供商是Wannet,并更新IP地址。
IP屏蔽的性能包括:限制网络的导出IP地址,禁止该IP段的用户访问内容,特别是屏蔽百度蜘蛛的IP地址。当你的网站不想百度蜘蛛访问,你可以设置它。如果您希望百度蜘蛛访问,请检查相关设置,或联系空间服务提供商更改设置。当然,百度蜘蛛一般都会抢到它。
总结搜索引擎蜘蛛抓取不到页面的原因及改善措施
简而言之,死链接指的是正常但后来失败的链接。当死链接发送请求时,服务器返回404错误页。死链包括协议死链和内容死链。协议死链:由页面的TCP协议状态/ HTTP协议状态明确指示的死链,如404, 403, 503状态等内容死链:服务器返回的状态是正常的,但内容已被更改为不存在的信息页,已被删除,或需要权限,与原文内容无关。
对于死链,建议网站使用协议死链,通过百度站长平台死链工具提交给百度,这样百度可以更快地找到死链,减少死链对用户和搜索引擎的影响。
将网络请求重定向到另一个位置是一个跳转,它指的是以下情况:
(1) 当前页是无效页(包括要删除的内容、死链等),直接跳转到上一个目录或主页。百度的建议是删除无效页面的入口超链接。
(2)长期以来跳转到其他域名,如更改网站域名,百度建议使用301重定向跳转协议进行设置。
(3) 对于百度引荐人的例外情况:该网页不用于百度引荐人的正常行为;
(4) 对于Baidu-UA的例外:返回Baidu-UA页面的行为与页面的原始内容不同;
(5) JS跳转异常:网页加载百度无法识别和发送的JS跳转代码,用户通过搜索结果进入网页后跳转。
(6) 偶尔因压力过大而被禁:百度会根据网站规模、访问量等信息自动设置合理的抓取压力。但在压力控制异常等异常情况下,服务器会根据自身负载进行保护意外闭锁。在这种情况下,请在返回码中返回503(503serviceunavailable,等同于404serviceunavailable),百度蜘蛛会在一段时间内再次尝试抓取链接。如果网站处于空闲状态,将成功对其进行爬网。
声明:OurSeo登载此文出于传递更多信息之目的,并不代表本站赞同其观点和对其真实性负责,请读者仅作参考,并请自行核实相关内容。如有侵权请联系我们,会及时删除,如若转载请注明出处。