For investors
股价:
5.36 美元 %For investors
股价:
5.36 美元 %认真做教育 专心促就业
对于许多运营和推广人员来说,数据测试是必须每周都做的数据报表,同样的,针对不同的推广页面也需要做一些A/B测试,但是有些时候,受到多种因素影响,这些测试并不能准确得出我们想要的结果,反而会因为收集到的结果太多而得出错误或者有偏差的结论。
今天,我们主要通过案例来分析,当我们不适用A/B测试的时候,又该如何得到我们想要的结果呢?
什么是A / A测试
在你对标题、副标题、配色、 CTA 、视频脚本、设计等进行测试之前,先测试软件本身。这很简单,通过测试网页自身就能实现。有人会认为这是毫无意义的,因为一个页面的相同页面将会有同样的结果,对吗?
并非如此。
测试3天后,A/A测试表明,同样的变化校验版本与原始版本相比,少了35.7%的收入,这会是对增长的绞杀。
这个运行了3天的A/A测试没能带来任何信心的增长。
造成这一结果的原因可能有:
你正在使用的A/B测试工具出了故障;
通过你的网站所报告的数据是错误或重复的;
A/A测试需要运行更长时间。
对这个问题的第一个线索是样本规模较小,虽然每个页面有超过345的访问量,但只有22/34笔交易。对一个大的因素来说,这个交易量太小。在A/B测试统计中,交易量比流量在建立统计信心上显得更重要。少于200笔的交易量通常带来无意义的结果。
显然,这种测试需要运行更长的时间。
你的第一直觉可能是通过快速A/A测试,这样你就能开展真正有趣的事情-A/B测试。但这是错的,上面告诉了你为什么。
用A/A测试来校准你的A/B测试工具
随着时间的推移,两个相同页面之间的差异若一直存在,我们会取消A/B测试计划直到我们找出这种差异的源头,到底是A/B测试工具还是网站本身的问题。我们也应重新测试来预先发现A/A测试存在的异常。
在这种情况下,较长时间的A/A测试能弥补样本数量的不足。在一次A/A试验中,3.5%的误差是可接受的,并且最小样本量需要保证有接近200的交易量,才可以开始评估结果。
这是统计显著和样本大小建立或摧毁信心的一个很好的教训。
一个A / A测试将告诉你,你的最小样本数量
A/A测试最终有效取决于足够的试验时间,合适的流量。不只是大量的流量,还需要合适的样本大小。
周一早上的顾客从统计上来看是跟周六晚上的顾客完全不同的两类人;
节假日的顾客与非节假日的顾客统计差异显著;
桌面顾客和移动端顾客统计差异显著;
工作中的顾客与居家的顾客不同;
付费广告渠道顾客与口碑推荐顾客不同。
如果你深入挖掘你的数据结果诸如设备类型和浏览器版本,你会发现惊人的不同。当然,小样本下的结果是不可信的。这是因为小样本从总体上意味着可能存在分配不均的数据段。
下面是来自同一个A/A测试的数据样本。在这点上,对每个变量少于300次的会话进行了测试,你可以看到, 使用 Safari 浏览器的 Mac 访客存在分配不均,校验版本发生85次访问,控制版本发生了65次。记住,这两个版本是一样的,此外,在 IE 浏览器上甚至存在更大的差异,分别是27和16。
这种不均衡是平均的规律,考虑这种不均不是没有道理的,但是,我们期望能有更大的样本量。
不同的浏览器有不同的转化率
据统计,一个分配不均会导致不同的结果,即使所有的变化都是平等的。如果访问分配不均,那么那些准备转换的访客客也会分配不均,这将导致转化率的不同。
在上面的图中,我们看到。对于 Internet Explorer 浏览器的访客,全部的16个访客是没有转换的,然而校验组的访客却有7.41%的转化率。
在 Safari 下,相同数量的访客被分配到控制组和变量校验组,但到达控制组的只有65名访客,到达校验组的有85名访客,看起来控制组有更高的转化率。
但原因肯定不是因为有两个相同的页面。
随着时间的推移,我们预计大多数不一致会被拉平。那时,这些叠加起来就造成参差不齐的结果。
当你在A/B测试中测试不同的页面时,这些外力因素将会产生影响。如果样本量太小,你知道为什么你的A/B测试工具建议你继续错误的版本吗?
计算测试持续时间
在从不同的细分受众中收到足够大的样本量来确定你的那个版本的网页在受众面前表现更好前,你必须进行测试。A/A测试能证明其达到统计显著的时间。
A/B测试持续时间是两个因素的函数:
达到一个可接受的样本大小所需的时间;
变量之间的不同表现差异大小。
如果一个变量引起了50%的变化,测试就不必运行很长时间。大比分胜利,也被成为“战胜的机会”或“信心”,即使是在小样本下,也能战胜误差。
因此,一个A/A测试表现的最坏场景,其中变量几乎没办法战胜控制组,因为它是相同的,事实上,A/A测试可能永远达不到统计显著。
在上面的例子中,测试还没有达到统计显著,而且不可能达到。然而,我们看到了校准变量版本和控制版本在15天后转化率曲线重合。
在这个A/A测试中,相同的页面花了15天转化率逐步接近。
这告诉我们,测试至少要运行15天,以确保我们有一个很好的样本集。不论如何,测试不应该运行少于一个星期,两个星期是可取的。
达内时代科技集团致力于培养面向电信和金融领域Java、C++、C#/.Net、3G/Android、3G/IOS、PHP、嵌入式、软件测试、UID、网络营销、网络工程、会计、UED、web、Unity3D、大数据、童程童美等17大方向中高端软件人才课程与少儿教育课程。选择太原电脑培训,不再孤军奋战,轻轻松松做IT高薪白领。太原达内培训带领有明确目标的学子迈向成功之路!想找工作的求职者可以加QQ:3373924515(太原达内就业服务部)咨询了解。