为何大多数的 A/B 测试结果是谎言

实验假设/设计建立在已有偏见之上,忽略不利于偏见的信息;倾向于关注特定用户(VIP)而忽略了普通用户;没耐心做足够长时间的实验,统计检验力不足;将不同的样本(如不同来源的 traffic)简单的相加汇总;没事先查实使用的 A/B 测试软件是否能够准确衡量关键指标;急功近利;样本间独立性假设没实现(如 conversion per session,每个用户的多个 sessions 之前是不独立的)。

本文提出了以下应对之策。对于验证性偏见,基于你的实验设计和商业周期,选择测试时间应至少 2-4 周;根据实验目的,将新/老用户或者 VIP/普通用户各自的行为区别开来;实验之前,先预估需要多长的时间达到足够大的统计检验力,以评估提早结束实验的风险;对于不同来源的traffic、不同类型的设备、差别很大的用户群,不要混在一个实验里,要单独出来做独立的实验;事先做 A/A 测试或用 web analytics 查实 A/B 测试软件的准确性;实验之初出现的极端现象(极好/坏)是暂时的,终将回归到一个水平,耐心等待这个回归值;实验尽量设计在 user-level metrics,以保持样本间独特性等等。