不能AB实验怎么办?

用增长视角观察行业动态,洞察增长契机

。主要会从用户价值、宏观机会、商业模式、数据驱动和营销技巧等五个维度中挑选合适的切入点,来盘点行业动态给用户增长带来的启示。

不能AB实验怎么办?

上图是我所理解的用户增长全局(姑且称“冰山图”),大众视野能看到的是各种营销策略,而在冰山之下,需要以用户价值为基础,需要对宏观机会和商业模式产生洞察找到切入点,再依靠数据驱动去更科学、更有效的落地增长策略。

本篇从数据驱动视角,针对用户增长领域一个常见的难题整理了一些已有研究和个人想法——不能做AB实验的时候,怎么评估效果?内容主要针对产品经理、产品运营,不涉及具体的技术实现,旨在抛砖引玉。文中难免有不当之处,期待随时交流。

我们知道,很多时候会因为成本问题、时间问题无法进行完备的实验,该如何尽可能准确评估某个增长策略的效果呢?

先说说自然实验。自然实验(Natural Experiments)实际上是一种观察性实验,不对任何用户进行干预,仅通过观察“随机”分组样本的实验结果,进行比较得出结论。请注意这里的“随机”无法像随机对照实验那样通过hash算法实现,而是基于经验选择两个接近相似的群体。比如经常需要评估一个紧急上线功能的效果,自然实验中的一组是使用某功能的用户,另一组是不使用某功能的用户。下面介绍的因果推断、双重差分就属于自然实验。

因果推断方法

因果推断(causal inference)是一类方法的统称,指通过各种数理手段,基于结果对其产生的原因进行估计。本质上随机对照实验也是一种因果推断的方法,并且是一种非常理想、直观的方法,甚至被认为是归因分析的“黄金法则”。然而很多时候我们没有办法做理想的随机对照实验,因果推断中的其他方法,可以提供补充,下面简单介绍断点回归和倾向性得分匹配两种。

断点回归

断点回归是一个直观的方法,结合例子来介绍:假设我们上线的是一个签到得现金红包的功能,签到满7天,才能获得一个现金红包,需要判断签到红包对用户的留存是否有正向作用。这个例子不能用随机对照实验的原因,是因为需要紧急上线,无法留一部分用户(无签到功能)作为对照组。断点回归顾名思义,找到6次签到无红包和7次签到有红包这个断点,观察签到6次,与7次两个用户群体之间的留存率差异,如果差异显著,说明签到红包对于用户留存有帮助;如果没有显著差异,则说明签到红包对提升留存大概率是无效的。如下图示例,可以看到本周签到6次和7次之间存在一个下周留存率的断点,可以说明,签到得红包对于用户的留存帮助明显。

不能AB实验怎么办?

图1 断点回归示例

倾向性得分匹配

倾向性得分匹配(Propensity Score Matching,PSM),是另一种常用的因果推断方法。PSM的核心在于“构造”一个于策略组可比的“对照组”。可以类比随机对照实验,通过倾向性得分匹配构造出一个对照组。如图2,虚框为构造出来的实验组和对照组,实验组使用的是被策略命中的用户群,而对照组是通过计算倾向性得分,从命中策略的用户以外“匹配”出于实验组倾向性得分接近的用户群。

不能AB实验怎么办?

图2 通过因果推断构造实验组和对照组

进行倾向性得分的计算和匹配,需要得到尽可能多的用户特征,比如用户属性、用户行为等详细数据,每种特征被赋予权重,最终为每一位用户计算出一个0到1之间的数值。匹配时,例如我们的策略命中人群得分为0.68,那就可以在备选人群中选择得分在0.68附近,例如0.67~0.69的用户群,作为“对照组”。PSM正是通过这种方式实现了对照组的“无中生有”,其准确定性依赖于用户特征的完备程度,理论上需要尽可能多的特征种类,在匹配前除了看匹配分数外,还需要检验分数的分布,以确保“实验组”和“对照组”的可比性。

双重差分方法

双重差分(Difference-in-Difference,DID)常用于政策效果评估。因为政策下达通常是指定某些城市或区域执行政策,无法做随机对照实验,和PSM一样只能采用构造一个“对照组”的思路。由于城市样本有限,我们甚至无法完成构造,所以DID的思路是设法估算出政策的净效果。类比到用户增长,当评估某个策略的净效果时,需要首先排除时间因素以及其他策略的影响,下面用一个例子简单说明。

不能AB实验怎么办?

图3 双重差分示例

如图3,策略人群是我们要分析的目标人群,因为没有对照组,我们依据经验选择了各方面接近的作为参照人群。图中可见,需要观察的指标,在策略下发前后发生了较大变化(图中a1和b1分别为策略人群策略下发前后的指标均值,a2和b2为参照人群指标均值)。现在需要分析策略效果,如果直接对比策略人群前后指标,得到

策略效果 = a1 - b1

显然,这个差异中包含了指标随时间的波动情况,需要消除掉。而理论上,如果这个参照人群和策略人群足够相似,时间因素的影响对于参照人群也同样存在,进一步得到

策略效果 = (a1 - b1) - (a2 - b2)

类似的,其他策略的影响,在这里也同样存在于对照人群,可以在第二次作差是消除掉。

以上方法有一个前提,需要两个人群满足“共同趋势假设”的条件,即当受到外接影响时,策略人群和对照组有同样的变化趋势。此外,参照人群的选取有很多主观性,难以保证严格相似和可比,所以总体上双重差分建议作为一种快速获得定性结论的方法,其计算得到的策略效果仅作为参考。双重差分之外,还有三重差分的方法,引入了另外一个策略组但原理类似,感兴趣的读者可以自行了解。

边际效果归因

因果推断和双重差分之外,边际效果归因也可以用于定性判断策略是否有效。这种方法基于一个假设:如果策略对用户有影响,加大策略的力度能够看到观测指标发生相应变化

。例如图4中,可以看到随着策略力度加大,观测指标同步提升,说明策略是有效的,而没有明显变化则说明策略是无效的。

不能AB实验怎么办?

图4 边际效果归因示例

本质上,边际效果归因是基于预设的因果关系去做假设验证,除了改变策略力度外,下发频次、时间等可能改变策略效果的因素,都可以作为变量去进行验证。如果可以做随机对照实验,这样可以得到严谨的定量结论;如果不能做,即只能针对所有用户都去下发,则需要考虑下发间隔时间等因素(会对用户造成持续打扰,影响效果)。所以,边际归因的方法,也仅仅是一种无法做随机对照实验的补充。

小结

如果条件和成本允许,尽可能使用随机对照实验;如果无法进行随机对照实验,可以尝试探索因果推断、用倾向得分匹配的方法获得接近于实验的结论;如果只想得到一些定性的结论,可以使用双重差分和边际效果归因。

作者:金磊 曾任职腾讯、滴滴出行、GrowingIo、奇虎360,专注增长策略挖。掘、增长工具搭建、实验数据分析


分享到:


相關文章: