危机公关

如何通过网站日分析和诊断来做网站SEO优化

  • 时间:
  • 浏览:9542

我们做SEO要经常分析网站日志  ,网站日志的分析和诊断就像给网站看病一样 ,我们通过网站日志的分析  ,可以简单明了的就知道网站的健康状况  ,可以利于我们更好的做网站SEO优化 ,今天和大家分享下网站日志分析和诊断  ,如果有什么不对的地方  ,可留言提问大家一起探讨交流!

网站日志又称蜘蛛日志  ,它是成千上万个“蜘蛛”小爬虫程序每天爬行数千万个网站  ,这个小爬虫程序就是“蜘蛛” ,SEO百度排名  ,它在网站爬行后留下的轨迹或痕迹就是“日志”  。

网站日志分析和诊断

常见的蜘蛛名称:

Baiduspider;Baiduspider-Image;Googlebot;Googlebot-Image;360Spider;sogou spider 。

一、网站日志的重要作用?

1、通过网站日志可以了解蜘蛛对网站的基本爬取情况  ,可以知道蜘蛛的爬取轨迹和爬取量 ,通过我们的网站日志  ,外链的多和少和网站蜘蛛的爬取量是有直接影响的 ,我们所说的链接诱饵就是如果你做了一个外链  ,蜘蛛在爬取这个外链页面并把页面放出来时  ,蜘蛛可以通过你留的这个链接来爬取你的网站  ,而网站日志正是会记录下蜘蛛的这次爬取行动  。

2、网站的更新频率也和网站日志中蜘蛛抓取的频率有关  ,一般来说更新频率越高 ,蜘蛛的抓取频率越高 ,而我们网站的更新不仅仅只是新内容的添加同时还有我们的微调操作 。

3、我们可以根据网站日志的反应情况  ,对我们的空间的某些事情和问题提前进行预警  ,因为服务器如果出问题的话在网站日志中会第一时间反映出来 ,要知道服务器的稳定速度和打开速度两者都会直接影响我们的网站  。

4、通过网站日志我们可以知道网站的那些页面是很受蜘蛛欢迎的  ,而哪些页面是蜘蛛连碰都不去碰的  ,同时我们还能发现有一些蜘蛛由于是过度爬取对我们的服务器资源损耗是很大的  ,SEO百度排名 ,我们要进行屏蔽工作  。

二、如何下载日志及日志设置注意事项?

1、首先我们的空间要支持网站日志下载  ,这一点是很重要的  ,在我们购买空间之前必须要先问好支不支持网站日志下载  ,因为有的服务商是不提供这项服务的  ,如果支持的话空间后台一般都有日志WebLog日志下载这个功能把它下载到根目录在用FTP传到本地就可以  ,SEO ,服务器的话可以设置将日志文件下载到指定路径 。

2、这里有个很重要的问题  ,网站日志强烈建议设置成每小时生成一次  ,小型的企业站和页面内容较少的网站可以设置成一天  ,它默认是一天 ,如果内容多或者大型站设置成一天生成一次  ,那么一天只生成一个文件  ,这个文件会相当的大 ,我们有时电脑打开是会造成死机  ,设置的话找空间商协调设置即可  。

SEO优化

三、网站日志的分析 。

1、日志的后缀名是log的我们用记事本打开  ,选择格式里的自动换行这样看起来方便  ,同时用搜索功能搜索BaiduSpider和Googlebot这两个蜘蛛  。

例如:

百度蜘蛛 2012-03-13 00:47:10 W3SVC177 116.255.169.37 GET / – 80 – 220.181.51.144 Baiduspider-favo+(+ baidu /search/spider ) 200 0 0 15256 197 265

谷歌机器人 2012-03-13 08:18:48 W3SVC177 116.255.169.37 GET /robots.txt – 80 – 222.186.24.26 Googlebot/2.1+(+ google /bot ) 200 0 0 985 200 31

我们分段来解释

2012-03-13 00:47:10 蜘蛛爬取的日期和时间点;W3SVC177 这个是机器码这个是惟一的 我们不去管它;116.255.169.37 这个IP地址是服务器的IP地址;GET 代表事件  ,GET后面就是蜘蛛爬取的网站页面  ,斜杠就代表首页  ,80 是端口的意思 ,SEO排名  ,220.181.51.144 这个IP则是蜘蛛的IP ,这里告诉大家一个鉴别真假百度蜘蛛的方法  ,我们电脑点击开始运行输入cmd打开命令提示符  ,输入nslookup空格加蜘蛛IP点击回车  ,一般真百度蜘蛛都有自己的服务器IP而假蜘蛛则没有  。

如果网站中出现了大量的假蜘蛛则说明有人冒充百度蜘蛛来采集你的内容  ,你就需要注意了  ,如果太猖獗那会很占用你的服务器资源  ,我们需要屏蔽他们的IP.

200 0 0这里是状态码 状态码的意思可以在百度里搜索下;197 265后两个数字则代表着访问和下载的数据字节数 。

2、我们分析的时候先看看状态码 200代表下载成功  ,304代表页面未修改  ,500代表服务器超时  ,这些是一般的其他代码可以百度一下  ,对于不同的问题我们要处理  。

3、我们要看蜘蛛经常爬取哪些页面  ,我们要记录下来  ,分析他们为什么会经常被蜘蛛爬取  ,从而分析出蜘蛛所喜欢内容  。

4、有时候我们的路径不统一出现带斜杠和不带斜杠的问题  ,蜘蛛会自动识别为301跳转到带斜杠的页面 ,这里我们就发现了搜索引擎是可以判断我们的目录的  ,所以我们要对我们的目录进行统一 。