大厂真实的AB实验方法论

tech2025-09-27  20

这是一篇很详细的具有实操意义的AB实验方法论,为你揭秘一线大厂是如何进行AB实验设计与分析的, 码字(画图)不易,求各位看官点赞、收藏、关注~

Par 1 实验设计

基本思想

提出假设 -> 验证假设 -> 产品决策 -> 长期观察

应用场景 AB实验不是万能的,之前写过一篇AB实验的局限性 复习点这里

适合 回答的问题例子不适合回答的问题例子更优解问题两种push策略哪个更好最优解问题如何创造一个最优的push策略估测短期影响七夕打榜活动能否提高直播流水?长期影响魔表功能能否提升平台长期直播流水?做了A会导致B分享红包能否提高分享拉新量?结果的分析最近分享拉新量大幅提升原有是啥?战术性迭代直播是否增加pk模式?战略性决策某个创新产品的定位

基本流程

流量的样本单位:一般是按用户分组(uid),也有设备分组(did), 如果是看具体事件或者策略的效果,会有session_id、pk_id(比如直播pk);分流方式:随机分流、双端分流、时空分流(好高大上);实验分组:大家都知道的base1, base2, exp1, exp2;实验指标:根据你想观察的效果而定,比如视频消费时长、直播时长、功能留存、打赏金额等。

以下详细来说下~

如何选取样本单位呢?

核心原则:要求用户体验一致的实验场景以用户为样本单位; 用户难以感知和分辨的实验场景以事件为样本单位。

分流方式

分组方式

针对样本进行单位分组(用户or事件);同一配置至少两组,以检验组间AA实验;避免按照尾号分组,有一些实验会选择某个尾号进行长期holdout实验,易收到干扰;各组流量尽量相等,避免指标误读,避免扩散效应。

实验指标选择

核心指标不宜过多,1~3个;观察指标:核心指标外需要观察的重要指标,实验指标是否影响了其他页面流量或者核心指标全局指标:所有实验都应该关注的指标,如dau, 留存。
AB实验的局限性

一般的,当期望实验的策略场景遭遇以下两种制约时,AB实验往往不能有效开展:

用户体验制约:一些较为敏感的全局策略,如价格调整、新产品上线等,往往需要考虑用户间体验公平性和用户长期体验的一致性。比如出行业务,AB实验导致两组司机定价不一致,这就造成用户体验的不公平性;又或者用户在早上9点看到产品的形态和下午2点不一样,这就和用户长期体验不一致。因此,当不同策略下用户的感知体验差异非常明显时不能开展AB实验。样本数量制约:部分实验场景由于天然不可抗因素限制样本量非常小,样本量过小无法通过分流的方法开展AB实验。

无法做AB实验的效果评估,有哪些科学方法?

这是个超级大的话题,想极其20个赞再展开说明~ 我们先统一一个话术,效果回归本质上属于统计学中的因果推断(causal inferences)。 因果推断要解决的问题的本质是剥离(或者说量化/控制)我们所不关心的外部协变量对结果的影响,从而精准捕获我们最关心的那一个因素对结果的单一影响。 在不能开展AB实验的情境下,有三种完成这件事情的思路:

回归模型构造法(Regression): 这种方法的核心是将所有我们认为可能对我们关注的实验指标产生影响的变量统统加入到回归模型中, 通过建模的方法量化这些变量的影响,并借此剥离出我们唯一关心的策略上线对指标的独立影响。相似群体对照法(Propensity Matching): 这种方法相信,在“未被实验策略影响”的 样本中总有一些样本和被实验策略影响的样本存在天然的同质性。只要我们合理地通过 统计学方法找到这些相似样本作为虚拟对照组,即可实现对外生因素的控制。典型的方法是倾向得分匹配法(Propensity Score Matching)。虚拟现实构造法(Synthetic Control): 这种思路认为,策略的收益其实可以表达为策略上了之后的指标表现和“假设策略没上”的虚拟时空中指标表现的delta。因此,只要 能够通过建模方法构建出虚拟时空(假设策略没上)的指标水平,即可科学评估实验策 略的收益。典型的方法包括DID(双重差分)和Causal Impact方法。

至于方法的具体实现,我们之后再慢慢道来~

最新回复(0)