在很多时间,我们需要查看网站日志,获得了解搜索引擎如何爬取咱们的网站。下面正觉网站建设给大家介绍一下如何分析网站日志?网站日志是网站管理员和搜索引擎对话沟通的途径。通过日志,了解搜索引擎蜘蛛的访问情况。
首先下载日志:通过FTP访问网站的根目录。可以看到一个包含log的文件夹,这是存放日志的地方。
分析日志:蜘蛛名称:百度->baiduspider、Google ->Googlebot、Msn ->msnbot、yahoo ->Slurp、yodao ->YoudaoBot、sogou ->Sogou+get+spider在日志文件里,搜索以上蜘蛛名称。就可以看到蜘蛛抓取的痕迹。我们分析的主要点是,HTTP状态码,如以上的200和301。" 200 5162 " 代表正常抓取,这次抓取了5162个字节。不同的服务器或虚拟主机设置的日志记录内容不同。有的如:200 0 33834 237 953 我们通过多看几条记录,观察规律,可以判断第三个数字代表字节数。有的如:200 0 0或200 0 64 这是没有记录抓取字节数。注意:200 0 0和200 0 64 没代表什么问题。所谓200 0 64代表要被K的言论没有根据,一般的网站都有64代码。在日志里,发现比较多的HTTP状态码是,200(正常)、304(没变化)、404(错误链接)。304代表,自从上次抓取后,该内容没有更新。一般情况下,网站的图片经常会返回该值。404代表,访问的这个链接是错误链接。这个错误链接,一方面来自原本存在后来删除了网页,另一方面可能来自本来就不存在,但其他人外链了这么个死链接。
1、网站刚上线,看搜索引擎蜘蛛的抓取情况;
如果网站提交给搜索引擎2天后,发现日志里蜘蛛不少,并都返回200,则说明已经可以正常收录。只是Google展示的时间比较快,而百度则需要20天左右(经验平均值)展示出来。
2、网站收录异常,对比日志中蜘蛛的行为情况;
收录正常增加时和现在异常时的日志,进行对比分析。如果没有异常,则应该是搜索引擎展示数据库出问题所致。如果蜘蛛爬取量明显减少,观察是否外链突然减少很多。如果日志依然,则认为是搜索引擎的展示问题。
3、解决网站被封问题时,观察日志情况。
网站被封时,往往日志里有百度蜘蛛,但很少,而且往往只访问robots.txt文件和首页。经过这里的建议修改后,再提交给百度,之后的2天观察日志情况。如果一直这样的情况维持1个月,可以考虑放弃该域名。如果蜘蛛明显增加,而且返回200居多,则收录的希望很大,时间问题。
浏览该篇文章的人还会浏览
最新评论
查看所有评论发表评论
西安网站案例
医疗医院、企业公司技术分享
分享才是互联网的第一思维大家都知道网站流量是衡量一个网站好坏的关键指标。而统计网站流量经常会用到的3个标识:pv,uv,ip。那么究竟什么是pv?什么是uv?什么又是ip呢?今天给...
17-11-21 +