如何通过IIS日志分析网站的隐形信息
在网站的SEO优化过程中,并不是说所有的站点问题都可以直接从站长工具上得到信息,在马海祥看来,往往站长工具上得到的信息都是在站点出现问题后才能察觉到。
作为一名SEOer,我们更需要学会如何查看网站的隐性信息,例如,这几天做的外链效果怎样?我们的内容那些方面更加容易受到搜索引擎蜘蛛的喜爱?搜索引擎蜘蛛对于我们站点的爬行积极度如何?……,这些都是隐藏在站点内部的一些关键信息。
虽说这些信息通过站长工具很难分析出来什么结果,可这些信息恰恰可以从我们的站点IIS日志上找到答案,那么,我们该如何通过IIS日志分析网站的隐形信息呢?
一、为何IIS日志在分析站点隐性信息中如此重要
1、通过IIS日记的记录我们可以更加清楚的分析出搜索引擎蜘蛛在网站上的爬行信息,这些信息包含有蜘蛛的爬行路线以及爬行深度。
通过这一些数据信息,我们可以分析近期我们建设的外链效果如何?因为我们知道外链就像是引导蜘蛛爬行的蜘蛛丝,如果外链建设的好的话,蜘蛛爬行的自然而然频繁,而且我们可以记录下从哪一个“入口”进入蜘蛛的频率高。
2、网站的内容更新与蜘蛛爬行存在一定的关系,一般只要我们更新稳定频繁,蜘蛛的就会爬行得更加的勤,对此,马海祥建议你可以借助日志中的蜘蛛来访频率对网站内容的更新频率做一个细调。
3、通过日志我们可以发现空间存在的一些故障,这些故障可能是一些站长工具无法察觉到的。
比如曾经很火的美橙空间因为技术员误操作robots文件导致空间屏蔽了百度了蜘蛛事件(正确写法可参考一下马海祥博客的《》相关介绍),假如站长们事先分析一下分析一下空间日志,或许可以发现这一错误。
二、如何获得日志文件以及应注意的事项
1、IIS日志,它是一个文件文件,扩展名为.log,在默认状态下,服务器每天都会在这些目录下创建日志文件,并用日期给日志文件命名(例如,exYYMMDD.log)。我们查看他的方法很简单,就是将其从FTP中下载下来,然后放到桌面,用记事本文件就可以打开了。
2、要获得该日志文件我们的空间需要有iis日志记录的功能,假如我们的空间有这一功能的话,一般该日志文件会记录在weblog或Logfiles文件夹中,有的也叫log文件夹中,我们可以直接从这一文件夹中下载我们站点的日志文件。
3、在使用这一功能时我们需要注意日志的生成时间设置,马海祥的建议是如果站点是一个小型的站点可以让它一天生成一次,假如是比较大的站点我们可以让其每小时更新,以免生成的文件出现过大的情况。
三、如何分析解读蜘蛛行为
那找到并下载了IIS日志文件,这个时候我们该怎么查看呢?有些朋友会抱怨不知道怎么去查看,看不懂代码,不知道如何去分析,事实上IIS的日志代码分析很简单的,都是一些固定的东西,接下来,马海祥就为你简单的介绍一下:
1、如何查看IIS日志文件?
我们可以记事本的方式打开我们站点的日志文件,使用记事本的搜索功能搜索百度和谷歌的蜘蛛,分别是BaiduSpider和Googlebot(更多的搜索引擎蜘蛛标识可通过马海祥博客的《》相关介绍来查询)。
(1)、查看百度蜘蛛的记录
(2)、查看谷歌蜘蛛的记录
我们可以分段对这个IIS日志进行分析:
2012-04-5 00:47:10 是在这一个事件点蜘蛛爬进了我们的站点。
116.255.169.37 这个ip是指我们的站点。
GET紧跟其后的就是蜘蛛爬行的页面,从这边我们可以了解近期我们的什么页面被爬行过。
200 0 0代表的是网页正常的状态码,当然还有其他不同数值的状态码,如500表示服务器超时等等。我们可以借由这些状态码来分析站点空间近来的表现情况。
220.187.51.144这一IP搜索引擎蜘蛛的ip地址,当然这边就可能会出现真假两种地址。
2、如何识别这一个地址是真的蜘蛛还是伪装的呢?
马海祥也为大家分享一个自己的小方法,我们可以打开命令窗口,在窗口中执行nslookup+这一个所谓蜘蛛的地址。加入是货真价实的蜘蛛,那么就会有自己的服务器,反之则是无法找到信息。
(1)、真蜘蛛
(2)、假蜘蛛
3、为什么IIS日志中会有伪造的蜘蛛呢?
原因就是有其他站点伪造成假蜘蛛来爬行抓取你的站点内容,如果任由这些假蜘蛛横行的话,会对站点的服务器消耗造成一定的影响(具体可查看马海祥博客的《》相关介绍)。
对此,我们需要通过一些方法找到并屏蔽他们,当然我们还需要细心处理,否则把真蜘蛛拒之门外就不好了!
最后,我们可以分析日志文件中蜘蛛最常光顾的几个页面,记录下来,并且找到为何会受到蜘蛛青睐的内外部原因。
马海祥博客点评:
作为SEO或站长,大多数人可能比较熟悉那些直观的数据,如:流量、收录、反链等等的数据分析,对于日志文件的分析可能较为生疏。
但IIS日志对于网站优化分析却至关重要,查看网站IIS日志可让我们知道网站的死链接,404,301,502等等,可让我们知道网站那些链接是搜索引擎经常爬取的?每天那些页面是被搜索引擎爬取过?也可以用于分析网站为什么不收录?或者网站快照为什么不更新?隐藏在站点内部的一些关键信息。