文章目录:
- 1、爬虫访问导致服务器500报错
- 2、如何解决百度爬虫无法爬取搭建在Github上的个人博客的问题
- 3、无法连接云服务器
- 4、云服务器没反应怎么回事,上不去网站了
- 5、为什么新建的网站会出现搜索引擎爬虫无法访问的情况?
爬虫访问导致服务器500报错
500是服务器内部错误,服务器日志中应该有体现的,个人推测应该是服务对于爬虫访问传递的参数跟用浏览器访问不同的处理异常导致的
如何解决百度爬虫无法爬取搭建在Github上的个人博客的问题
总结一下,解决办法:
换供应商,这个方案不是很靠谱,github 还是很好用的
让 github 改,这个也很难
利用 CDN 加速 ,这个方案可行!
Github是通过 UA 来判定百度爬虫并返回 403 Forbidden 的。而百度爬虫的 UA 一般是这样的:
Mozilla/5.0 (compatible; Baiduspider/2.0; +)
那么使用 CDN 来解决这个问题的关键就在于,让百度爬虫不要直接向 Github 的服务器发送请求,而是通过 CDN 边缘服务器的缓存来抓取网站的内容。边缘服务器本身是不会关心 UA 的,所以问题就迎刃而解了。
结果是只有偶尔能够抓取成功,结果很让人失望吧?让我们来分析以下原因,首先罗列我目前可知的一些情况:
所有抓取成功的页面都访问了 209.9.130.5 节点
所有抓取失败的页面都访问了 209.9.130.6 节点
我本机ping jerryzou.com会 ping 到 209.9.130.8 节点
好了,细心的同学应该已经发现问题所在了,百度爬虫大部分的请求被导到了 209.9.130.6 节点,但是这个节点上没有页面的缓存!!如果百度爬虫是某个页面的第一个访问者,CDN 的边缘服务器会用百度爬虫的 UA 去请求 Github 的服务器,得到的结果自然是被拒绝了。
最终我们得到了通过 CDN 来解决这个问题的必要条件:你的博客必须有巨大的访问量!这样才能保证 CDN 的每一个边缘服务器上都有任何一个页面的缓存。
无法连接云服务器
第一步:首先先检查一下本地网络是否有问题,你可以先在开始“运行”ping一下百度的域名,检查一下自己本地网络的ping值是否稳定,如果稳定不掉包,说明本地网络是通的而且没问题
第二步:去ping一下云服务器的Ip 是否能ping通,要是不能ping通,说明云服务器运行出现异常可以直接凭机器IP联系机房运营商技术去检查(一般正规的运营商都有24小时值班技术的)
通过以上处理一般可以把问题原因找出来
云服务器没反应怎么回事,上不去网站了
先PING一下你的云服务器IP,是否能PING通:
如果通,那证明云服务器网络正常,先重启一下云服务器,然后针对服务器内网站的配置查看。
如果不通,联系提供商技术去查看。
我用的是中电华联的云服务器,管理便捷,出问题技术第一时间给原因。
为什么新建的网站会出现搜索引擎爬虫无法访问的情况?
1:检查robots文件中是否有屏蔽对应的搜索引擎蜘蛛。
如果robots中写入了禁止搜索引擎抓取,那么蜘蛛是不会抓取的。
2:检查网站空间或服务器的地理位置。
如果网站服务器空间在国外或相对偏远的国外,有可能爬虫有无法访问的情况。
3:咨询空间服务商看是否对你所需要的蜘蛛做了屏蔽策略。
国外的一些空间有服务商针对搜索引擎做了一些策略,不排除屏蔽百度蜘蛛访问的可能。
4:域名曾绑定别的服务器,但此时更换了空间和绑定,原有ip已不存在
进入百度站长资源平台进行抓取测试,如果ip错误则点击手动刷新,清除蜘蛛ip缓存记录。
5:检查远程服务器是否宕机,但是开启了CDN永久在线功能
这种情况偶尔是有的,由于cdn缓存了网站,因此浏览器能打开,但是蜘蛛等其他方式无法打开。
数跟用浏览器访问不同的处理异常导致的如何解决百度爬虫无法爬取搭建在Github上的个人博客的问题总结一下,解决办法:换供应商,这个方案不是很靠谱,github 还是很好
证明云服务器网络正常,先重启一下云服务器,然后针对服务器内网站的配置查看。如果不通,联系提供商技术去查看。我用的是中电华联的云服务器,管理便捷,出问题技术第一时间给原因。为什么新建的网
报错500是服务器内部错误,服务器日志中应该有体现的,个人推测应该是服务对于爬虫访问传递的参数跟用浏览器访问不同的处理异常导致的如何解决百度爬虫无法爬取搭建在Github上的个人博客的问题总结一下,解决办法:换供应商,这个方案不是很靠谱,git
6 节点我本机ping jerryzou.com会 ping 到 209.9.130.8 节点好了,细心的同学应该已经发现问题所在了,百度爬虫大部分的请求被导到了 209