使用Google Analytics辨别虚假流量

乐清SEO_网站运营_ 乐清SEO2021-01-04 转载自:

虚假流量是指那些为了骗取广告费通过人为操作产生的流量,(人为操作可能是点击你的广告,访问制定的landingpage,或者完成某个简单的任务。具体情况还要根据不同的广告形式来判断。)这种流量通常不会在网站上产生任何转化行为。虚假流量可能是通过程序产生的,也可能是人肉产生的。后者的成本会更高些。行为更智能一些。也更难防范。

这里简单的介绍几种使用Google Analytics辨别虚假流量的方法。首先把流量产生的背景设定为某种CPA(Cost Per Action)广告,并且我们对广告的URL通过工具网址构建器将来源统一设定为bluewhale(utm_source=bluewhale)。这样,所有通过这个广告产生的流量来源都将被记为bluewhale

具体的广告URL形式:

http://bluewhale.cc/?utm_source=bluewhale&utm_medium=cpa&utm_campaign=bluewhale_traffic

下面在Google Analytics报告中对这个广告产生的流量进行检查,看看是否有虚假流量存在。检查的思路是先分割出广告产生的流量。然后使用不同的维度对这部分流量进行检查。通常虚假流量都是人为控制完成的。在行为上会有一些统一的特征。检查的方法就是找到这些统一的特征。

使用高级群组分割流量

在检查前先要将这部分广告流量与网站的其他流量进行分割,高级群组是最好的选择。因为我们之前对流量进行过来源标记,所以只需要创建一个来源等于bluewhale的高级群组就可以分割出这部分流量了。

创建完成后,在报告中选择使用这个高级群组。这部分流量将会贯穿整个报告。这也是在检查流量前的准备工作。避免其他来源流量的干扰。

流量产生的时间

使用的Google Analytics报告:访问者—访问者趋势—访问次数

这里的时间要精确到每小时的访问数据。通常,网站正常的访问流量会分布在一天中的各个时段,即使有访问高峰,在曲线图中也会是较为平滑的曲线(广告刚上线时除外)。而虚假流量是人为控制产生的流量。为节省成本不会在意流量的时间分布,所以会在时间曲线上发现流量突增的情况。所以,如果流量过于集中在某个时段,或者在某个时段有了不正常的增长。这部分流量就可疑了。

当然也不排除有的程序会计算好日期和时间端,并按时间曲线模拟点击。如果碰到这种“智能流量”的情况,就要继续使用第二种方法。

流量的地理来源

使用的Google Analytics报告:访问者—地图覆盖图

通常访问网站的访客会来自各个不同的地理位置(Google Analytics通过访问者的IP来判断流量来源的地理位置信息)。所以在地图覆盖图报告中可以看到很多不同地区的流量来源。而虚假流量通常很难使用多个地区的不同IP来产生流量。所以通过地区覆盖图来看,如果流量来源都集中在一个地区,这部分流量就很可疑了。

这里可能你的广告只针对某个地区的访客,所以访客的地理位置范围对你不适用。或者是你又遇到了“更加智能”的流量,比如,人肉流量!可以通过代理或者是分布在不同地区的兼职人员模拟出来自多个地理位置的访问。那么请接着往下看。


流量的网络属性

使用的Google Analytics报告:访问者—服务提供商

服务提供商报告显示的是网站访客所使用的网络接入方式,正常情况下网站访问者的接入方式应该是千差万别。而虚假流量的接入方式会很单一。所以如果这个报告里只显示了1-2种服务提供商名称,就说明你的流量很可疑了。但其实这里还是没有回答上面的问题,就是那部分超级智能的人肉流量。因为人肉流量的接入方式也会有很多种,在服务提供商报告里是无法识别出来的。那该如何辨别人肉流量呢?别急,这个问题很快就会有答案了。

流量的跳出率

使用的Google Analytics报告:访问者—访问者趋势—跳出率

跳出率是衡量页面质量的指标,反过来看,也是辨别虚假流量的好工具。如果发现在某个时段网站的跳出率突然增高,找到那个时段的流量与前面的访次时间段,地理位置信息和接入方式综合对比。如果符合前面的任何一个条件,这部分时段的流量都非常可疑。

流量的网站停留时间

使用的Google Analytics报告:访问者—访问者趋势—网站停留时间

网站停留时间其实并不是一个非常准确的指标,会受到cookie30分钟生存期的影响。但可以配合着前面的几个报告共同对可疑流量进行进一步验证。

进入路径&点击分布图

使用的Google Analytics报告:内容—热门内容—进入路径

通常我们都会为广告活动制定一个登录页面 landingpage,所以广告的入口页面只有一个。但访问者来到网站后会有不同的行为,他们会点击不同的链接,访问不同的页面,并且在不同的页面结束对网站的访问。这些都是人为操控很难完成的。虽然现在的某些“智能流量”也能完成2-3次的点击行为。但都是通过预先设定的。所以它们的访问路径和结束页面基本相同。

与目标报告匹配

使用的Google Analytics报告:流量来源—目标

最后一种方法,也是你在每次的广告活动前最应该做的。就是为流量设定目标。Google Analytics现在升级了目标功能。你可以为流量设定多个目标。通过多个维度来检查流量。目标的完成度是辨别虚假流量的最好方法。很多智能流量可以绕过跳出率,停留时间和访问时间分布等等指标,但很少有能够完成目标的。当然这也要依你设定目标的复杂程度来定。如果设定的CPA是完成购物,那么这对虚假流量来说就是一个杀手级的目标。如果目标只是注册用户或者是填写信息,人肉流量都是可以完成的。
在第一篇文章中我们介绍了7种辨别虚假流量的方法。分别从24小时访问量分布,访客地理位置分布,网络属性等多个维度对流量进行分析,通过对比和细分等方法辨别虚假流量。在本篇文章中,我们将对辨别虚假流量的方法进行扩充,通过对比虚假流量与真实流量间的差异,从访客行为的角度介绍4种辨别虚假流量的方法。

虚假流量与真实流量的特征

在分析虚假流量之前,先简单介绍下虚假流量和真实流量的特征,了解这两种流量的特征可以帮助我们快速的发现网站中虚假流量的影子,并且进一步将其分离。下面来看下这两种流量之间的特征和区别。

虚假流量的特征:

目的性:虚假流量的产生一定和某个特定的目的有关。

规律性:特定的目的导致虚假流量一定有特殊的规律。

真实流量特征:

自然性:真实的流量在各个维度中表现一定是自然的。

多样性:网民的喜好各不相同,行为一定也是多样的。

了解了两种流量各自的特征后,我们就可以开始对网站流量进行分析了,以自然和多样性的访问行为作为原则,找出那些有”规律”的虚假流量。

1、单页面刷新分析

单页面刷新是指为了降低跳出率,流量在进入网站的Landingpage页面上刷新的行为。这类流量单从跳出率指标上来看表现很好,但却没有完成转化和购买。此时我们还很难判断这部分流量是否是作弊流量。需要通过访问路径或点击热区图进行深度分析。然而在面对多个Landingpage的情况时即使是路径或热区图分析也都变成了一个非常大的工程。因为我们可能要逐一查看流量在上百个Landingpage中的访问情况。 对于这个问题现在我们有个很好的方法来解决,就是使用自定义指标Pageviews/Unique Pageviews。

Pageviews表示页面浏览量,而Unique Pageviews则表示每个页面获得的唯一页面浏览量,相当于每个页面获得的访问次数。在一次访问中,用户多次浏览一个页面只会造成Pageviews的增加,而Unique Pageviews是不会增加的。因此,我们将不同的页面作为维度,使用Pageviews和Unique Pageviews两个指标相除就可以看到一次访问中访问者浏览同一个页面的次数。通常来讲,访问者在一次访问中是不会多次浏览一个相同的页面的。所以,如果如果Pageviews/Unique Pageviews的值很高,那么这部分流量就值得注意了。当然,这并不是一个绝对的标准。为了确保万无一失,最好的方法是将这部分流量的Pageviews/Unique Pageviews值与这些页面在整站中的值进行对比。

2、访客忠诚度分析

访客忠诚度是对一段时间内访客回访频率进行的分析。通常来讲,当一定数量的访问者来到你的网站后,总会有一部分访问者会再次访问的。即使这部分访问者非常少。哪怕只有一两个。这就好像在一个页面中,即使有些链接放在非常隐蔽的位置,也总还是会有人点击的,即使比例非常的少。记得一个真实的教训,我们为客户分析一个wap网站时,发现页面中的一个链接点击量是0。当时想当然的认为这个链接因为提供在线电影,流量和费用都很高,所以没人点击也是正常的。但实际情况却和我们想象的完全不一样。

因此,在分析一个渠道的流量时,适当的拉大时间维度来分析访客回访也是辨别虚假流量的一种方法。真实的访客中会有再次回访的行为产生,而虚假流量在合作结束后是不会进行这些收尾工作的。所以那些在合作期结束后齐刷刷没有回访的流量多半是异常的。

3、访客重合度分析

访客重合度是指一段时间里排重后的访问者与排重前访问者的比率。举个例子来说明一下,假设我每天找10个人点击你的广告,连续点击10天。这时,Google Analytics中每天都会记录到有10个绝对唯一身份访问者。十天加在一起就是100个。但当我们把时间维度拉大到10天再来看时,就只有10个绝对唯一身份访问者。这是因为Google Analytics对访客进行了排重处理,所以10天的数据中每个访问者都是唯一的。按照这个逻辑我们可以计算出不同渠道中访问者的重合度。具体计算公式是:1-排重访客/未排重访客*100%。对于上面例子中的情况,访客重合度等于1-10/100*100%=90%

(点击查看大图)

对于不同的流量渠道,我们也可以使用访客重合度指标来辨别虚假流量。当某个渠道的流量在短时间内有较高的访客重合度时,我们就需要进一步检查这个渠道的流量质量了。

4、页面访问长尾分析

页面访问长尾分析是指访问者的页面浏览广泛程度。按照真实流量的特征,每个访问者的特点,兴趣和习惯都是唯一的。他们会按照各自的目标通过各种方法浏览网站内容。访问者的这些自然和多样的特点可以通过网站中的热门内容和退出页面看出来。这些都是虚假流量无法模拟的。

(点击查看大图)

热门内容是在整个访问过程中最受欢迎的页面。上图是网站中热门内容的浏览量趋势图。因为每个访问者的目的都不相同,所以除了最受欢迎的页面之外,还会有很多页面也会被浏览,并且大部分页面获得的浏览量都很少,只有1-2次。这些就是页面访问的长尾,他们充分的表现了真实访客浏览网站的自然性和多样性。同样,对于退出页面也必然会存在这样的长尾,因为访问者会在不同的页面结束访问。


在前面的文章中我们寻找虚假流量的方法基本是通过流量中的问题或异常来进行判断和推理。这种方法比较原始,而且未必准确。因此我们希望找到一种更加明确并且简单的方法来辨别虚假流量。因此在本篇文章中我们转换思路,直接寻找虚假流量产生的源头。通过虚假流量产生的原理并学习它们能做模仿什么,不能做模仿什么。进而再来有目的性的对流量进行分析,寻找虚假流量的蜘丝马迹。下面我们将通过几个具体案例来介绍虚假流量的产生过程,以及我们在分析中的关键突破点。

案例一:24小时访问量趋势分析

通过24小时中网站访问者的变化趋势来判别虚假流量的方法我们在第一篇文章中就曾经介绍过,按照访问者的作息时间在24小时中会出现三个访问高峰时间段,而午夜时段则会出现访问的低谷。因此如果流量在24小时中不符合这个趋势则十分可疑。例如午夜出现大量访问的情况。那么来看下面这个24小时变化趋势图,你能发现什么问题吗?

这张24小时流量趋势图基本符合上面的判断标准,在每天中也都出现了2-3个访问高峰。好像没有太大的问题。但它确是不折不扣的虚假流量。为什么这么说呢?请继续往下看。

虚假流量是如何模拟的

上面的截图是一张虚假流量工具中的24小时流量分享比率设置界面。在这里可以对一天中每个小时的流量占比进行手动设置和分配。也就是说,虚假流量可以很容易的模拟出真实的24小时访问变化趋势。这样,我们也就很难再通过单纯的24小时访问趋势发现流量的异常了。那么,我们前面介绍的方法是不是就不管用了呢?未必,下面我们依然通过24小时访问量变化趋势找出了流量的异常,并且最终验证了最初的判断。

分析中的方法及突破点

 

在这个案例中我们发现流量异常的突破点在流量的时间段上,也就是下面的10月1日——10月8日。首先,只有在正常的工作日才会有早上,下午和晚上的三个访问时间段高峰出现。而对于节假日,尤其是大型的节假日来说则不会出现这个规律。其次,在节假日中,访问者使用互联网的时间通常会比平时有所下降。而在下面的图表中十一长假期间依然保持了和工作日相同的访问规律就显得十分可疑。

我们将可疑的流量与网站的整体流量在十一期间的表现进行了对比,很快发现了问题并且验证了之前的假设。在十一期间早上和下午的两个访问高峰已经很模糊了,而晚上的访问高峰依然存在,并且比平时延续了更多的时间结束。在十一长假开始的几天用户来访的数量明显降低,随着长假的结束逐步恢复正常。

案例二:不同地域访问者行为分析

按访问者地域辨别虚假流量也是我们在第一篇文章中介绍的方法之一。最初我们假设访问者很难模拟大量不同地理位置的流量。因此可以按照流量所属的地理位置及分布来寻找虚假流量的痕迹。例如当流量大部分来自某一个固定的地域时,可能说明这些流量存在异常。但这可能只针对初级的虚假流量,对于本篇文章中的情况就不适用了。我们先来看下虚假流量是如何控制流量的地域来源的。

虚假流量如何模拟的

这是虚假流量工具用来设置流量所属地理位置的界面,相当专业。可以按国家,地区和省市对流量来源进行设置。因此,这也完全打破了我们之前对虚假流量地域的假设。虚假流量可以任意选择由不同地区产生访问。

分析中的方法及突破点

对于设置如此完善的虚假流量,我们但从地域或访问的分布数据上来看几乎无法发现破绽。这个案例中的突破点来自于我们对网站业务的理解。我们所分析的这个网站的业务有非常明显的地域属性。也只有特定地域的访问者才会对网站的业务感兴趣。因此当我们将不同地域的数据放在一起进行比较时,很快从每次访问页面浏览量,平均停留时间和跳出率三个指标中发现了异常。目标地域与非目标地域的访问者在不同的指标上都表现出了相同的访问特征。再进一步说就是全国网民都表现出了极度相似的访问特征。这里面明显存在问题。而这也是虚假流量目前无法模拟的一种情况,下面我们继续来介绍。

案例三:访问者页面访问行为分析

访问者的页面访问行为也是之前文章介绍过的方法。分为页面停留时间,访问者路径和点击分布等等。这部分也是虚假流量最难进行模拟的部分。因此,也就出现了在上个案例出出现的问题。不同城市的访问者有相似的停留时间和页面浏览量。下面我们先来看下虚假流量模拟访问者浏览行为的方法有几种,分别是如何操作的。

虚假流量如何模拟的

首先是虚假流量控制访问者的浏览模式和浏览深度的设置界面。默认状态下虚假流量会在每次访问时浏览三个页面,这三个页面可以是随机自动选择页面访问,也可以是单独页面的重复刷新,还可以重新访问或是访问指定的页面。

其次是设置虚假流量每次访问的单页停留时间,这里的设置比较粗糙,10秒一个区间。这也就是说当我们看到某些流量在页面停留时间上的变化基本都在10秒以内时,都需要特别关注。

分析中的方法及突破点

由于每次访问页面浏览量和页面停留时间在虚假流量中的设置比较简单。因此这两个指标也是我们辨别虚假流量的主要突破点。简单的按时间观察这两个指标的变化趋势就可以发现异常。在下面的图表中,虚假流量的每次访问页面浏览量几乎为一条直线,无任何变化,非常不自然,同时也与网站整体流量在该指标上的表现相差很大。

对于重复刷新的子页访问模式,我们的突破点在对浏览量和唯一身份浏览量两个指标的理解上。当这两个指标的比率接近2:1时,就很可能是单页刷新的访问。在下面的内容报告中,当我们对虚假流量在网站中的浏览量和唯一身份浏览量进行检查时发现了异常,不同页面间的浏览量与唯一身份浏览量相当有规律。结合页面停留时间和进入次数也可以确定这不是由于页面代码实施错误导致的。