<返回更多

招聘帖里常说的“A/B TesT”到底是个啥?

2021-03-03    
加入收藏

作者:阿宅的产品笔记

本文在PMCAFF社区发布(www.pmcaff.com),转载请注明作者及出处。

招聘帖里常说的“A/B TesT”到底是个啥?

大家在聊增长的时候必定会聊到实验,而聊实验的时候也必然聊到AB test。而且很多用人单位也把会不会用AB test作为考察增长产品或运营的关键指标之一。那么听起来这么高大上的AB test到底是个啥?

 

招聘帖里常说的“A/B TesT”到底是个啥?

|| 什么是AB test?

A/B TesT,也叫AB测试,有时你也会看到 AB testing的说法。简单来说,它是指针对想调研的问题提供两种不同的备选解决方案(比如两个下单页面),然后让一部分用户使用方案A,另一部分用户使用方案B,最终通过数据观察对比确定最优方案。

其本质还是对照试验。这就像初中时学的鼠妇试验:把鼠妇等额分为两组,在其他条件相同的情况下对一侧遮光,另一侧不遮,再观察两组鼠妇在两种条件下的反应,从而得出光对鼠妇的影响。

 

招聘帖里常说的“A/B TesT”到底是个啥?

|| AB test的特点

作为一种科学的实验方法,AB 测试具有以下特点:

简单来说,AB测试可以让你以对照试验的方法在小范围内对多个方案进行测试,并得出改版的最优解。

|| AB test的应用场景

作为增长的常用工具,它的应用场景非常广泛,小到一个文案,大到一套算法

1. 产品UI:红色还是紫色?会动的icon还是静态icon?

2. 文案内容:“免费注册”还是“注册送188元大礼包”?

3. 页面布局:登录框置于导航栏,还是悬浮于放在页面左侧?

4. 产品功能:要不要把看似冗余的资讯签下掉,还是将它留着?

5. 算法/算法:是根据用户的历史记录推荐相似内容,还是根据相似兴趣用户的行为推荐相关内容,又或是根据商品/内容本身的相关性给用户推荐?

以下是几个通过AB测试得到较好的产品改进的例子(引用自《增长黑客:创业公司的用户与收入增长秘》)

 

招聘帖里常说的“A/B TesT”到底是个啥?

变为爱心图标后的“保存到心愿单”按钮

 

招聘帖里常说的“A/B TesT”到底是个啥?

37Signals旗下产品Highrise的注册引导文案

 

招聘帖里常说的“A/B TesT”到底是个啥?

《模拟城市》订购页面测试前的广告文案

|| AB test的实施步骤

与我们写论文时做的实证分析类似,AB 测试也有一套成熟的实施步骤:

1.现状分析:分析业务数据,确定当前最关键的改进点。

2.假设建立:根据现状分析作出优化改进的假设,提出优化建议。

3.设定目标:设置主要目标,用来衡量各优化版本的优劣;设置辅助目标,用来评估优化版本对其他方面的影响。

4.界面设计:制作2(或多)个优化版本的设计原型。

5.技术实现:

网站App(Android/IOS) 、微信小程序和服务器端需要添加各类A/B测试平台提供的SDK代码,然后制作各个优化版本。Web平台、Android和iOS APP需要添加各类A/B测试平台提供的SDK代码,然后通过编辑器制作各个优化版本。通过编辑器设置目标,如果编辑器不能实现,则需要手工编写代码。使用各类A/B测试平台分配流量。初始阶段,优化方案的流量设置可以较小,根据情况逐渐增加流量。

6.采集数据:通过各大平台自身的数据收集系统自动采集数据。

7.分析A/B测试结果:统计显著性达到95%或以上并且维持一段时间,实验可以结束;如果在95%以下,则可能需要延长测试时间;如果很长时间统计显著性不能达到95%甚至90%,则需要决定是否中止试验。

上面说的可能有些复杂,核心便是假设检验和对照试验。接下来我们对上述步骤的一些要点和注意事项进行说明。

|| AB test的注意事项

1. 样本规模

在统计中样本量过小的话,样本特征相较总体特征便会存在一定偏差,实验结果便也不准确。样本量越大,样本特征才能越接近总体特征。所以,在进行实验设计时,为了保证实验结果的有效性,我们需要对样本规模进行约定。那么至少需要多大的样本规模才能在特定显著性下反应总体特征呢?这里涉及了一些统计学的概念。对于比率类指标可以按以下公式计算。

 

招聘帖里常说的“A/B TesT”到底是个啥?

招聘帖里常说的“A/B TesT”到底是个啥?

 

例如:“XX提交”按钮由红色变为橙色,统计的指标是点击UV转化率UV_rate,测试时间是20200801~20200814,则计算“XX提交”按钮的历史月均值mean(UV_rate)为下面数据的均值avg(UV_rate):

招聘帖里常说的“A/B TesT”到底是个啥?

招聘帖里常说的“A/B TesT”到底是个啥?

图片来源:知乎@livan,公众号:livandata

看起来确实挺头疼的,但你可以用一个小小的工具解决这个难题:

招聘帖里常说的“A/B TesT”到底是个啥?

 

在这个工具里只要输入原始版本的转化率、优化版本的转化率和统计显著性,就可以计算出所需样本的数量大小了。是不是很好玩?

留言回复“样本”获取样本数量计算器

顺嘴提一句,在算出AB测试所需样本数量大小后,根据网站或App每天的访问数,即可计算出试验所需的时间。

试验所需的时间 = 所需样本数量大小 / 每天访问数

2. 测试结果分析

前面说过,AB测试的本质是假设检验,所以我们也需要进行显著性检验以拒绝或同意原假设。怎么进行假设检验就不扯了,太掉头发,即使大学概率论满绩但也吃不住折磨人的小妖精,还是给个小工具吧。

当然,学霸朋友们也可以看看这篇 AB-Test 双样本显著性计算,我等就蹭现成的了。

招聘帖里常说的“A/B TesT”到底是个啥?

这个小工具可以根据A、B版本的访问数和转化数,计算出转化率和统计显著性数值,并给出可信度结论。

有了这俩,妈妈再也不担心我不会概率论啦。

依然,回复“测试结果”获取AB测试结果检验工具

3.辛普森悖论

这个悖论也是AB测中常常说到的话题,它是指某些条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。这个理论由英国统计学家辛普森提出。

 

用一个肾结石手术疗法的 AB 测试结果作为例子:

招聘帖里常说的“A/B TesT”到底是个啥?

看上去无论是对于大型结石还是小型结石,A疗法都比B疗法的疗效好。但是总计而言,似乎B疗法比A疗法要好。

声明:本站部分内容来自互联网,如有版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
▍相关推荐
更多资讯 >>>