就在贝拉克·奥巴马宣布自己将参加2007年秋季的总统大选后不久,谷歌公司的首席执行官埃里克·施密特在大批谷歌公司员工面前采访了奥巴马。为活跃气氛,施密特首先问了这样一个问题:“为100万个32位的整数排序的最有效的方法是什么?”奥巴马这样回答:“总之,我认为冒泡排序不是正确方法。”这个回应不能算错。施密特惊讶地用手拍了拍自己的前额,现场爆发出一阵掌声。随后,在现场问答环节,奥巴马又进一步向观众们保证,“我是个对原因、事实、证据、科学以及反馈有执念的人”,他还承诺在他当选后,政府会按照这些原则运行。
那天,在观众席中有一位名叫丹·塞洛克(Dan Siroker)的产品经理当即决定要为奥巴马效力。他表示:“奥巴马在我的冒泡排序中占据了前列。”
塞洛克用专业工具为奥巴马助选。他向人们展示了如何进行“A或B”(即二选一)测试。当你在两种方式之间犹豫而不知道哪种才是帮你达到目标的最佳选择时,你可以用掷硬币的方法决定谁采用A方式,谁采用B方式,然后比较两者。你可以搜集与你感兴趣的问题有关的数据,用某种统计学的方法分析比较采用A方式与采用B方式的平均状况。
本章会对“A或B”测试进行细致的说明,包括其含义以及如何在专业工作和日常生活中运用这种方法。如果你能理解好实验的设计思路,那么在媒体中碰到那些所谓的科学发现时你就会更具批判性。
“A或B”
在塞洛克加入奥巴马的竞选网站工作团队之时,谷歌等互联网公司的开发者就已经在网页设计测试方面进行了好几年的探索。这些网络先行者没有基于HiPPO式(HiPPO即highest-paid person’s opinion的调侃式说法,也是这一概念的首字母缩写,意为“最具价值者的观点”)的思维进行网页设计,而是以什么最有效这种无可争议的思路进行开发。他们会给一部分互联网用户提供以蓝色为主视觉感受的主页,而给另一部分用户提供以红色为主视觉感受的主页。这些开发者要搜集有关“点击率”的信息。从颜色到排版,再到图片和文字,页面上各种信息都被同时传递给随机挑选出的用户,以测试页面的效果。判断效果优劣的依据是到底什么东西应该出现在网页上,而不是某个最具价值者的观点。
在政治网站上应用“A或B”测试十分直接明确。一个主要问题是如何设计一个网页,以便通过它来最大限度地获取潜在捐赠者的电子邮箱地址。例如,哪种按钮能促使更多的用户注册:“了解更多”、“现在加入我们”还是“现在来注册吗”?将什么图片放在网页上可以吸引更多用户注册:一张清晰的奥巴马本人的蓝绿色照片,一张奥巴马全家的黑白照片,还是一段奥巴马在一次集会上演说的视频呢?
我猜你可能无法料到,“了解更多”按钮加上一张家庭照片是最有效的,而且效果远超其他组合。这两者结合使得吸引到的潜在捐赠者人数比最差的组合多了140%,利用这种效应影响竞选捐款和投票,产生了更大的作用。
网站设计者们学到了社会心理学家在几十年前就发现的情况,即在新鲜的场景中,人的直觉会影响到其行为。正如塞洛克指出的,“假设往往是错误的”。
自2007年起,“A或B”测试在奥巴马的竞选决策过程中被广泛应用。竞选专家、曾经的社会心理学家托德·罗杰斯进行了一系列有关奥巴马的实验。其中有一些实验不够严肃。接到一个来自比尔·克林顿的自动语音电话,或一个来自志愿者的可陪你聊天的电话,哪一种方式能得到更多捐款以及获得投票者支持?(结果证明是后者。)帮助竞选的志愿者在大选前一天拜访投票者是提高投票者在投票当日现身投票的最有效方法。
关于什么方式能有效助选还有大量的研究。要提高人们的现场投票率,哪种方式更有效:告诉他们投票结果不重要,还是告诉他们结果很重要呢?你可能会认为,如果告诉投票者结果不重要,他们便更有可能现身投票。然而,一个简单的成本–收益分析会告诉你,让投票者知道其投票的重要性可能更容易激发其行动。记得吗?人们对社会影响力的敏感性很高。他们想做他人希望自己做的事。如果大多数人都喝得很多,那么你也会这么做;反之亦然。如果大多数人重复使用酒店的毛巾,那么你也会这样。因此,告诉投票者他们的行动在自己的选区很重要会是一种有效得多的方法。
如果让人们知道你会在最后一次选举中了解他们投票的情况,这会更有效地促使人们投票吗?人们总是想给他人留下良好的印象,也希望自我评价能高一些。因此,当人们被告知有人监督他们的投票表现时,投票率会上涨2.5个百分点,甚至更多——出现这种情况一点儿也不奇怪。然而,只有“A或B”测试能告诉我们这种监督策略是否真正有效,以及如果有效果,它是正面的还是负面的。
在2008年和2012年的大选中,奥巴马团队都给共和党对手带来了不少出其不意的麻烦。罗姆尼在2012年的竞选中表现得极度自信,甚至连败选演说都没有准备。
诚然,共和党人显然深谙“A或B”博弈的原则。实际上,早在2006年,得克萨斯州州长里克·佩里在其谋求连任的竞选活动中就放弃了直接与投票人进行邮件联系、支付通话费、设置草坪宣传标语的做法,他认为这些方式效果不佳,因此就没在这些方面投入资金。相反,竞选团队充分利用机会,在电视和广播中插播广告。就是通过这种最有效的方式,他们分别在18个电视频道和30个广播电台上随机插播竞选的开始日期。民意调查显示,正是这些行动让佩里的选情出现了巨大的变化。这种方式的随机性特质极大地增加了结果的准确性。参与竞选活动的工作人员不被允许针对某个群体在某个时间段的某种特定表现搜集信息。如果他们这么做了,任何票数增加的情况都可能是因为某个群体所处的环境发生了变化,而不是因为共和党人投出的广告影响到选民。
如同在政治活动中一样,“A或B”测试在商业运作中也行之有效,因为调研者可以按照不同群体的需求分析,随机安排不同策略。当样本量很大时,即便是很小的差异也能被发现。商业活动亦如政治,牵一发而动全身,小节见成败。
经济效益与社会效益并举
商人将“A或B”测试运用得更为娴熟。他们发现这种测试法可以有效帮助其提升人们的生活品质,促进收益增长。
研究者在得克萨斯州厄尔巴索市的一家超市利用“A或B”测试研究了可提升果蔬销售量的一系列策略。在购物车中放置一块隔板,并在上面贴上标示,写上“请把果蔬放在购物车的前端”。此举让果蔬的销售量提升了一倍,果蔬部赚得的利润比其他部门都多,这也对消费者的健康大有裨益。研究者同样分析了社会影响力因素。如果有标牌告知消费者,其他购物者也购买了一定量的商品,则能够刺激销售量。研究结果表明,那些标示牌对于果蔬的销售量提升作用最大,其对应的消费群体是低收入人群——这些人更可能购买加工处理过的食物而较少购买新鲜农产品。
美国的杂货店按以下方式布置货品:淀粉类食物在通道4,调味酱类在通道6,奶酪在通道9。日本杂货店则从不同餐饮风格进行整体分类:意大利餐饮中的面食、酱料、奶酪,日式餐饮中的豆腐、海鲜、酱油。这样的整体分类之法可能会降低人们对加工过的食品的购买量,不过可以让那些闲暇时间很少的消费者为自己购买更多的健康食品。
各类机构和组织也可以对其策略和工作环境的有效性进行更多的实验。如果允许雇员利用一部分时间在家工作,是否能提高其效率?完全在家工作呢?完全坐班呢?面对一份每周交一次的大作业和每天都要交的小作业,高中生们会更倾向于哪种呢?
内设计与对比设计
美国西尔斯百货在不同的媒体上随机投放针对特定群体的广告,它们可以随机选择在自家店铺的什么位置摆放哪类货品——在新罕布什尔州和北卡罗来纳州放在店铺后端,在佛蒙特州和南卡罗来纳州放在店铺前端。西尔斯百货的店铺在全美数量巨大,这样“A或B”测试便能发挥很大的效力。一种统计学测试的效力体现在其是否能在给定样本规模较大时发现其中的样本差异。样本量越大,你就越能确定某种样本差异是真实存在的,而非偶发的。
你还可以通过“内设计”(within design)提升测试的效力。比如将同一家商店中的货品摆放位置调换。这种对于整体差异的控制法也适用于比较商店之间的差异。一种典型的内设计是“前后对比”设计。当你将珠宝柜台置于店铺前端,而将内衣柜台置于后端时,销售量会怎样呢?加入了内设计的“A或B”测试会比单纯的“A或B”设计敏感得多,因为你可以针对每一个样本得到一个“差异分数”,然后用其作为你的测量指标。这个分数是用休斯敦地区的销售量计算的,即用采取该策略前的销售数据减去应用了该策略之后的数据。随后,你便能看到一个对所有情况都适用的分数,它会因为销售地区和货品种类变化而变化:商店的规模和吸引力,当地消费者的偏好等。这类差别被称作“误差变异”,因为它反映了去除策略影响因素之后的商店或消费者之间的差异。影响得分高低的因素与“A或B”测试试图回答的问题无关。当你通过“前分数”和“后分数”来减少误差变异时,你会更想知道在状况A之下和状况B之下的销量差异是否真实存在。
请注意,当你使用“前后对比”设计时,你需要平衡不同策略,即一些样本需要先在实验情境下进行,另一些样本则需要在控制情境下进行。否则,策略的效果和样本顺序变化的效果会被混淆。你以为由策略产生的效果很可能只是因为调整了时间顺序而产生的。
一些“前后对比”实验只是在偶然的情况下产生的,其结果虽然意外但很有用。我最喜欢的这样一个例子是在美国西南部的一家礼品店里发生的。绿松石类的珠宝销量很差,因此当店主要做一次短途旅行的前夜,他打算将这类珠宝降价出售,他留给店员一块标牌,上面写着“所有绿松石类珠宝价格乘以1/2”。当店主返回的时候,几乎所有此类珠宝都售完了。而店主在听店员提起另一件事时,震惊之余,更是无比开心。店员表示,较之放那块牌子前,珠宝在以正常价格的两倍出售时销量好得惊人。原来,这位店员误解了店主的意思,他以为要加价一倍售卖,而不是以半价出售。
通常情况下,价格比较公平地代表了商品的价值,因此消费者会以高价购买相应价值的珠宝。当然,这种状况并不适用于所有类别的商品,然而绿松石类的珠宝绝对是会让消费者倚赖其价格为判断依据的一种商品,因为很少有人具有判定其价值的专业知识。
“前后对比”设计的效力意味着我们可以在自己身上进行真实的实验。你偶尔会因胃酸过多而消化不良,但是不知道确切原因,该怎么办呢?你可以每天记录自己的饮食日志,尤其注意那些可能的“罪犯”——酒、咖啡、苏打水、巧克力。然后进行一次真正的随机实验——掷一次硬币来决定是否喝一杯鸡尾酒。每次只变化一种东西,以避免出现混杂变量。如果你不吃巧克力,也不喝苏打水,你的胃回流状况改善,那么你将不知道究竟是食物还是饮品充当了“罪犯”。在围绕“口头报告”而展开的第12章中,除了考虑一些科学方法论之外,还提供了大量建议帮助你自己做实验。
统计相关性与统计独立性
更多的样本量,随机布置的实验条件,这些都增加了我们对某一效果是真实的信心。然而,还有另一个因素也很重要,这便是我们认为什么样的样本才算数。假设你在一个有30个学生的班级1中实验A程序。A程序是标准的教学方式——课上讲授,课下做作业。你在另一个有25个学生的班级2中实验B程序——在家通过视频听课、完成作业。那么样本总量是多少?肯定了,不是55,如果对比的数据存在差额,那么能表现出显著性差异的样本到底是多少呢?
样本量是2。这是因为只有当存在独立观察时,样本量才等于搜集的案例个数。然而,就这种针对一个班的学生或任何群体的实验来说,群体中的个体之间在采取实验措施和最后进行测量之时都会产生互动,这样每个个体的行为就不是独立产生的了。琼的疑惑可能让其他人感到慌乱,比利的古怪行为可能拉低测验中每个人的得分。每个个体的行为都会潜移默化地受其他人的行为影响。在这种情况下,无法得出具有显著统计学意义的测量结果,除非群体的数量特别巨大,在此处样本数量指的是群体的数量,而非群体中个体的数量。
如果你无法进行具有统计学意义的测验,那么毫无疑问你无法确切知道不同方式对某件事情产生的效果。然而,在第二次实验的时候采取第一次效果较好的方式是种更聪明的选择,这比你单纯依靠自己的假想要好。
独立性的概念对于理解事件是具有无限可能性这一点至关重要。比如在2008年,发生了一件令人惊讶的事,进行金融评级服务的标准普尔公司应用了可能出现违约状况的房屋抵押贷款模型,在这类模型中,假设违约状况是独立于其他因素而存在的。乔·道克斯在迪比克市的违约行为被认为与简·道伊在丹佛市的违约行为毫无关联。这些在日常生活中的状况并非毫无道理可言。然而,在各类情况层出不穷的大千世界,即便在一个房价似乎稳定增长的时期,你还是要预想到可能会遇到经济泡沫。因此,针对20031A型房屋抵押贷款的违约行为在统计学意义上可能会依赖于人们在90014C型房屋抵押贷款上是否出现违约行为。
评级机构从来都不是中立的。银行会向它们支付服务费用。越容易给出安全性高评级的评级机构越受欢迎。因此,评级机构是否会以拙劣之计创制出违约模型,或是有一些欺骗性行为,我实在不好做出评价。不过,有一点是我们都应当明白的:有缺陷的科学方法论会导致灾难性的后果。
小结
单纯的假想很有可能是错误的。即使它们是正确的,在你有条件进行测试的时候还依靠它们也是愚蠢的。“A或B”测试在原理上十分简单:设计一种你想检测的步骤,设置一个对照情况,掷一枚硬币以决定谁(或者什么)采取何种方式,然后看看会发生什么。借由随机设计发现的差异表明,自变量的改变会对因变量产生因果式的影响。而借由相关性的方法发现的差异则不能保证自变量对因变量产生确定的影响。
相关性设计之所以不可靠,是因为研究者没有限定样本的具体条件。例如,对比大量和少量家庭作业,广播广告和传单广告,高收入和低收入。如果你没有根据一定的条件随机搜集样本——无论是人、动物还是农田,那么你就给自己的分析增添了各种不确定性。在某一个层面上的自变量样本可能和在其他层面上的自变量差异极大,而且差异体现的方式也有许多种,其中有些差异可以辨认出来,而另一些并不能。有时候并不是相关的自变量引发了不同,而是任何一种可测量的变量,或是不可测量乃至不可构想出的变量,产生了一些效果。此外,有时候实际上可能是我们认定的因变量反而扮演了自变量的角色。
样本的数量越大——人、农田或是其他事物,那么你发现真正起作用的因素的可能性就越大,同时你误将一些虚假因素当作真实因素的可能性就越小。如果通过某种统计检验而发现差异的发生概率小于在20个随机样本中发生一次,则显著性水平表示为0.05。如果不做这样的测试,我们便无法知晓一种效应是否应当被看作真实。
当你在分配样本时考虑了所有可能性,那么你的设计便是高度可信的。这是说,在反映某一个维度上的差异时,“内设计”比“对比设计”更具有统计学意义上的显著性。这是因为在任意两个样本之间的所有可能差异都被控制了,只剩下分配样本这一项上的差异,而它可能是事物产生关联的原因。
辨别你所检验的样本(比如由人去做关于人们行为或心理的研究)之间是否相互影响十分重要。任何时候,当某个样本可能会影响其他样本时,就会缺乏统计上的独立性。某种事物的样本量(N)并不会影响另一种事物的样本量。A班代表的样本量为N,这里的N指的并不是这一个班里的学生人数,而仅仅是1,A班整体是一个样本。(有一种情况除外,即那种相互影响的状况几乎可以忽略不计或者不存在时,比如学生们在一个带有小隔间的房间中参加考试,他们无法交谈。)