如何解读网站日志?揭秘网站日志分析工具的五大核心特性

网站日志分析程序的关键特性

我特地为众多网站运营者和管理员定制了一款网站日志分析程序,这款程序能够兼容IIS、Apache网站日志,并且支持W3C、IIS、NCSA等日志格式。此外,它还具备SEO分析功能,助力站长和管理员更高效地维护网站。

关键特性包括:

一、蜘蛛抓取

搜索引擎的爬虫可自由添加,除了统计每个爬虫访问的次数,还能记录其访问的页面、访问时间;若同一网页被多次访问,还能得知首次访问和最后离开的时间。

二、页面访问

统计每个网页被用户访问的次数,不包括搜索引擎的访问;可以了解哪个网页最受欢迎,也能识别恶意访问不存在的网页的IP,找出扫描服务器的IP、尝试恶意上传病毒的用户以及试图窃取网站的恶意用户;并且详细列出每个网页的访问时间、状态码和来源网址。

三、IP访问页面

分别统计访客IP和搜索引擎IP的总数,每个IP访问的次数、到访时间和离开时间;可以掌握恶意访问的IP,找出每天访问次数过多却无益流量的IP。

四、返回状态码

统计返回404、403、500、503、304的网页,并根据这些状态码进行分类,统计出每个页面每种状态出现的次数;能及时掌握路径更改和不存在的网页。

五、访客来源

分为搜索引擎来源和普通网站来源,统计出每个搜索引擎来源的次数,通过搜索什么关键词来到访,访问的是什么网页,每个网页的来源次数(访问次数);普通网站来源是指除搜索引擎外的所有网站;这些信息有助于了解自己的推广效果。

六、搜索关键词

指从搜索引擎搜索关键词并点击进入您网站的情况,除了统计每个来源关键词外,还统计每个关键词的来源次数,便于了解哪些网页设置的关键词能带来流量。

如何进行网站日志分析

一、什么是网站日志

1.网站日志是以.log结尾的文件,记录了web服务器接收处理请求以及运行时错误等各种原始信息。

2.通过网站日志可以清晰地了解用户在什么IP、什么时间、使用什么操作系统、什么浏览器、什么分辨率设备下访问了网站的哪个页面,是否访问成功。

3.搜索引擎也属于网站用户中的一类,我们今天的分享主要是针对搜索引擎在服务器留下的记录进行分析。

为了方便理解搜索引擎日志,我们需要了解不同搜索引擎爬虫的标识,以下为4种搜索引擎的标识——百度爬虫:Baiduspider搜狗:Sogou News Spider360:360Spider谷歌:Googlebot

二、如何理解网站日志

(以下为一段日志记录)www.cafehome.com

58.180.251.134-- [25/Mar/2015:13:24:33+0800]"GET/m53256.html

HTTP/1.1" 200 12264"""Mozilla/5.0

(Windows NT 6.1) AppleWebKit/537.36(KHTML, like Gecko)

Chrome/35.0.1916.153 Safari/537.36 SE 2.X MetaSr 1.0""-""-""-"

以下为字段解读:

通常日志文件较大时,需要借助shell与python结合起来进行数据提取与分析。因此,理解网站日志中的字段对于日常分析非常重要。在此不赘述,有兴趣的朋友可以继续深入了解。

大型网站通常可以用以上的方法进行日志分析。

普通的个人站点或企业网站,则可以通过光年日志分析工具结合百度站长平台一起使用。

三、为什么要进行网站日志分析

先来了解SEO流量获取的流程:抓取——>索引——>排名——>点击——>流量

因此,要获取SEO流量的前提是,有价值的页面被搜索引擎抓取到。

所以,对于SEO运营来说,分析搜索引擎网站日志显得非常有必要:分析抓取有无:解决一定的索引问题。发现异常:及时规避。如存在大量异常页面,404等抓取调控:让更多优质内容被抓取,过滤无效抓取。

网站分析的最终目标是:让更多有价值的页面被抓取,从而有机会获得索引,进而有机会获得SEO流量。

四、如何进行网站日志分析

定期监控搜索引擎抓取量变化,通过历史数据的横向纵向对比才能发现异常情况。借助第三方站长平台,如百度站长平台,了解搜索引擎抓取频次变化。借助光年日志分析工具,定期进行数据记录,了解重要栏目、重要页面的抓取量变化。

举个例子:

老站点(建站1年且有人维护的网站):Seo流量出现异常波动。

分2种情况:

了解外界:了解外界的前提在于平时你得有一定的人脉基础,如果没有也没关系。泡2个地方——去搜索引擎站长平台或者加入搜索引擎站长群。比如,像百度搜索引擎,它拥有站长平台,也会相应建立站长QQ群。有人脉基础上,可以直接了解外界的情况——是否也出现类似幅度的波动?这个的前提要结合你短期做过的SEO操作一并考虑,避免误判。无人脉的情况,泡群、泡站长平台。通常如果是搜索引擎算法升级,会在群里或者站长平台有相关的小道信息出现。如果是搜索引擎自身算法升级导致的流量波动,那么就得根据新算法做相应的站内优化。比如,百度冰桶3.0版本提出:将严厉打击在百度移动搜索中,打断用户完整搜索路径的调起行为。如果站点有存在以上的情况就需要针对性的做优化:无论是通过对接的APPLINK调起,还是网页自主调起的应用,以及普通的网页,都应是可返回,可关闭的。用户校验搜索结果的准确性,不需要额外下载APP或者权限。

分析内在:

在分析内在之前,再次抛出这个公式:Seo流量=抓取量收录率(准确来说应该是索引率)首页率*点击率

。当抓取频次出现异常必然引起抓取量的减少。因此,排除了外界的因素,就需要对网站的日志进行分析。如果你的站点是中文站点,且是百度站长平台的VIP用户。那么,你就可以先借助第三方站长平台的“抓取频次”工具(如,百度),先了解搜索引擎近期的抓取频次、抓取时间、异常页面。通常借助这个工具,我们可以对搜索引擎近期抓取情况有初步了解,并且可以借助这个工具,相应的找到一些解决办法。

。若抓取频率异常,必定导致抓取量降低。故而,除去外部因素,我们需对网站日志进行解析。若您的站点为中文站点,并且是百度站长平台的VIP会员,您便可以首先利用第三方站长平台的“抓取频率”工具(如,百度),先了解搜索引擎近期抓取频率、抓取时间、异常页面。通常利用此工具,我们可以对搜索引擎近期抓取情况有初步了解,并且可以借助此工具,找到一些相应解决办法。

先解释这个概念,便于理解:

1.抓取频率:抓取频率是搜索引擎在单位时间内(日级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频率过高,可能会造成服务器不稳定,蜘蛛会根据网站内容更新频率和服务器压力等因素自动调整抓取频率。

2.抓取时间:指的是搜索引擎每次抓取耗时。影响抓取频率的可能原因有:

(1)抓取频率上限误调,调低后,则会直接影响到抓取量减少,抓取量减少则索引量少,流量相应减少。

(2)运营层面:存在大量重复页面(情况一:自身网站存在大量重复的内容。情况二:自身网站内容采集了大量互联网已存在的内容)。从搜索引擎的目标出发——搜索引擎希望抓取到更多更好的页面,而你的网站产出的却是网上泛滥的内容,何必浪费资源在你的网站上?另外,网站内容太久不更新。建议,通过有规律定期产出优质内容来解决此问题。抓取时间变长,也会导致网站抓取量减少。通常存在的可能情况是,服务器速度变慢导致抓取时间变长。还有一种可能是与网站自身结构有关系。层级太深导致。

总结一下:

老站如何进行网站日志分析(针对中文站点):排除外界因素:

了解搜索引擎最新算法是否发生变动、同行是否也有类似变化。

内在分析:

(1)使用工具:百度站长平台(非VIP账户看下文介绍)

(2)分析方法:主要使用抓取频率分析工具进行分析,网站抓取频率、抓取时间、异常页面情况等数据变化。并与相关部门进行对接解决。

五、利用光年日志分析工具

非百度VIP:

步骤:

1.下载网站日志(如果是企业站点,可以直接让运维部门的同事帮忙下载,如果是个人站长,直接在你所购买的虚拟主机后台进行下载,文件以.log为结尾的便是)

2.打开光年日志分析工具,上传网站日志。

3.查看分析结果。主要维度有这几个:

(1)概况分析:各种爬虫的总抓取量、总停留时间、总访问次数。

(2)目录分析:各种爬虫抓取各目录的情况分析。通过这个可以了解到搜索引擎对一些重要栏目的抓取情况,又抓取了哪些无效的页面。

(3)页面分析:通过页面分析可以了解到经常被重复抓取的页面有哪些,可以相应的做优化调整。比如,像网站的一些注册页面及登录页面,经常会发现多次被抓取,发现这种情况,我们通常会将登录/注册页面进行屏蔽处理。

(4)状态码分析主要分为2种,爬虫状态码以及用户状态码。主要反应用户/爬虫访问页面时的页面状态。通过页面状态码,我们可以了解到页面状态,做相应调整,如,当网站存在大量404页面。那就需要进一步排查,比如,有些团购页面,团购过期后,页面就直接变成404了,但并未向百度站长平台提交死链清单,则容易造成无效抓取。

以上所转载内容均来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2020@163.com,本人将予以删除。
THE END
分享
二维码
< <上一篇
下一篇>>