每天推送5篇优质英文文章 · By makers, for makers

运营 1561 天, 推荐好文 6,420 篇, 原创简评 1,265,086 字, 原文总阅读时间 57,599 分钟, 196,231 人订阅

实验假设/设计建立在已有偏见之上,忽略不利于偏见的信息;倾向于关注特定用户(VIP)而忽略了普通用户;没耐心做足够长时间的实验,统计检验力不足;将不同的样本(如不同来源的 traffic)简单的相加汇总;没事先查实使用的 A/B 测试软件是否能够准确衡量关键指标;急功近利;样本间独立性假设没实现(如 conversion per session,每个用户的多个 sessions 之前是不独立的)。

本文提出了以下应对之策。对于验证性偏见,基于你的实验设计和商业周期,选择测试时间应至少 2-4 周;根据实验目的,将新/老用户或者 VIP/普通用户各自的行为区别开来;实验之前,先预估需要多长的时间达到足够大的统计检验力,以评估提早结束实验的风险;对于不同来源的traffic、不同类型的设备、差别很大的用户群,不要混在一个实验里,要单独出来做独立的实验;事先做 A/A 测试或用 web analytics 查实 A/B 测试软件的准确性;实验之初出现的极端现象(极好/坏)是暂时的,终将回归到一个水平,耐心等待这个回归值;实验尽量设计在 user-level metrics,以保持样本间独特性等等。

打赏 如果你觉得我推荐的这篇文章(或我写的简评)不错,对你有所启发,可以考虑请我喝杯咖啡。 感谢 235 位读者捐款了 $1,737.56
分享到:
App 内打开