作者:阿宅的产品笔记
本文在PMCAFF社区发布(www.pmcaff.com),转载请注明作者及出处。
大家在聊增长的时候必定会聊到实验,而聊实验的时候也必然聊到AB test。而且很多用人单位也把会不会用AB test作为考察增长产品或运营的关键指标之一。那么听起来这么高大上的AB test到底是个啥?
|| 什么是AB test?
A/B TesT,也叫AB测试,有时你也会看到 AB testing的说法。简单来说,它是指针对想调研的问题提供两种不同的备选解决方案(比如两个下单页面),然后让一部分用户使用方案A,另一部分用户使用方案B,最终通过数据观察对比确定最优方案。
其本质还是对照试验。这就像初中时学的鼠妇试验:把鼠妇等额分为两组,在其他条件相同的情况下对一侧遮光,另一侧不遮,再观察两组鼠妇在两种条件下的反应,从而得出光对鼠妇的影响。
|| AB test的特点
作为一种科学的实验方法,AB 测试具有以下特点:
先验性: A/B测试能够先于上线,得出结论;不再需要先将版本发布,再通过数据验证效果,从而一定程度上减少改版带来的风险。
并行性: A/B测试是将两个或以上的方案同时在线试验,这样做的好处在于保证了每个版本对应的时间环境、数据环境保持一致,便于更加科学客观地对比优劣。
科学性:如果能保证流量分配的科学性,将相似特征的用户均匀的分配到试验组中,就可以避免出现数据偏差,使得试验的结果更有代表性。
简单来说,AB测试可以让你以对照试验的方法在小范围内对多个方案进行测试,并得出改版的最优解。
|| AB test的应用场景
作为增长的常用工具,它的应用场景非常广泛,小到一个文案,大到一套算法
1. 产品UI:红色还是紫色?会动的icon还是静态icon?
2. 文案内容:“免费注册”还是“注册送188元大礼包”?
3. 页面布局:登录框置于导航栏,还是悬浮于放在页面左侧?
4. 产品功能:要不要把看似冗余的资讯签下掉,还是将它留着?
5. 算法/算法:是根据用户的历史记录推荐相似内容,还是根据相似兴趣用户的行为推荐相关内容,又或是根据商品/内容本身的相关性给用户推荐?
以下是几个通过AB测试得到较好的产品改进的例子(引用自《增长黑客:创业公司的用户与收入增长秘》)
Airbnb曾测试过把“保存到心愿单”的收藏图标由星形改为爱心,结果仅凭这一改动就让心愿列表的使用率提升了30%。
变为爱心图标后的“保存到心愿单”按钮
37Signals在对旗下CRM产品的注册页面标题进行A/B测试后,发现“30-day Free Trial on All Accounts”(所有账户享受30天免费试用)可以比原来的“Start a Highrise Account”(注册高额回报账户)多带来30%以上的新用户。他们还试着挑战传统网页必须把所有重要信息都放在第一屏的惯例,做了一个长达5000多像素高的展示网页,结果竟成功让注册率增加了37.5%。
37Signals旗下产品Highrise的注册引导文案
EA在发布游戏《模拟城市》时,发现删除掉官网顶部的“PRE-ORDER”(预购)广告横幅可使得页面更加干净整洁,并因此使订购量由之前的5.8%上涨到10.2%。
《模拟城市》订购页面测试前的广告文案
|| AB test的实施步骤
与我们写论文时做的实证分析类似,AB 测试也有一套成熟的实施步骤:
1.现状分析:分析业务数据,确定当前最关键的改进点。
2.假设建立:根据现状分析作出优化改进的假设,提出优化建议。
3.设定目标:设置主要目标,用来衡量各优化版本的优劣;设置辅助目标,用来评估优化版本对其他方面的影响。
4.界面设计:制作2(或多)个优化版本的设计原型。
5.技术实现:
网站、App(Android/IOS) 、微信小程序和服务器端需要添加各类A/B测试平台提供的SDK代码,然后制作各个优化版本。Web平台、Android和iOS APP需要添加各类A/B测试平台提供的SDK代码,然后通过编辑器制作各个优化版本。通过编辑器设置目标,如果编辑器不能实现,则需要手工编写代码。使用各类A/B测试平台分配流量。初始阶段,优化方案的流量设置可以较小,根据情况逐渐增加流量。
6.采集数据:通过各大平台自身的数据收集系统自动采集数据。
7.分析A/B测试结果:统计显著性达到95%或以上并且维持一段时间,实验可以结束;如果在95%以下,则可能需要延长测试时间;如果很长时间统计显著性不能达到95%甚至90%,则需要决定是否中止试验。
上面说的可能有些复杂,核心便是假设检验和对照试验。接下来我们对上述步骤的一些要点和注意事项进行说明。
|| AB test的注意事项
1. 样本规模
在统计中样本量过小的话,样本特征相较总体特征便会存在一定偏差,实验结果便也不准确。样本量越大,样本特征才能越接近总体特征。所以,在进行实验设计时,为了保证实验结果的有效性,我们需要对样本规模进行约定。那么至少需要多大的样本规模才能在特定显著性下反应总体特征呢?这里涉及了一些统计学的概念。对于比率类指标可以按以下公式计算。
例如:“XX提交”按钮由红色变为橙色,统计的指标是点击UV转化率UV_rate,测试时间是20200801~20200814,则计算“XX提交”按钮的历史月均值mean(UV_rate)为下面数据的均值avg(UV_rate):
图片来源:知乎@livan,公众号:livandata
看起来确实挺头疼的,但你可以用一个小小的工具解决这个难题:
在这个工具里只要输入原始版本的转化率、优化版本的转化率和统计显著性,就可以计算出所需样本的数量大小了。是不是很好玩?
留言回复“样本”获取样本数量计算器
顺嘴提一句,在算出AB测试所需样本数量大小后,根据网站或App每天的访问数,即可计算出试验所需的时间。
试验所需的时间 = 所需样本数量大小 / 每天访问数
2. 测试结果分析
前面说过,AB测试的本质是假设检验,所以我们也需要进行显著性检验以拒绝或同意原假设。怎么进行假设检验就不扯了,太掉头发,即使大学概率论满绩但也吃不住折磨人的小妖精,还是给个小工具吧。
当然,学霸朋友们也可以看看这篇 AB-Test 双样本显著性计算,我等就蹭现成的了。
这个小工具可以根据A、B版本的访问数和转化数,计算出转化率和统计显著性数值,并给出可信度结论。
有了这俩,妈妈再也不担心我不会概率论啦。
依然,回复“测试结果”获取AB测试结果检验工具
3.辛普森悖论
这个悖论也是AB测中常常说到的话题,它是指某些条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。这个理论由英国统计学家辛普森提出。
用一个肾结石手术疗法的 AB 测试结果作为例子:
看上去无论是对于大型结石还是小型结石,A疗法都比B疗法的疗效好。但是总计而言,似乎B疗法比A疗法要好。