首页 » 思维的发现:关于决策与判断的科学 » 思维的发现:关于决策与判断的科学全文在线阅读

《思维的发现:关于决策与判断的科学》第六章 判断的机制

关灯直达底部

1960年,对于人类决策问题有着浓厚兴趣的俄勒冈州立大学心理学教授保罗·霍夫曼获得了全美科学基金会6万美元的资助,从而得以放下教学工作,专门去筹建他所谓的“行为科学基础研究中心”。在此之前,他从未在教学中获得真正的快乐;学术生涯的停滞不前,尤其是晋升受阻,也让他颇为沮丧。有了这笔资助金,他干脆辞去了教职,在尤金市一处绿树成荫的街区买下了一栋楼。这里之前曾是座一神论教堂,他给重新取名为“俄勒冈研究所”。作为全世界唯一一所只专注于人类行为的私人研究机构,俄勒冈研究所很快就吸引来了好奇的目光和卓越的人才。“在一种合宜的工作氛围中,一群聪明人默默地探究着人类决策背后的奥秘。”尤金市的一家媒体这样报道。

这一描述有些模糊,而俄勒冈研究所的标志性特征恰恰就是模糊,有些犹抱琵琶半遮面的感觉。没人知道里面的心理学家在忙些什么,只知道他们不会再拿“我是个教授”来搪塞人了。保罗·斯洛维克在离开密歇根大学加入这个研究所之后,曾经被他的孩子们问及他靠什么谋生,他指着一张印有人脑解剖图的海报回答说:“靠研究大脑里面藏着的奥妙。”

长期以来,心理学就像一个承载知识的垃圾桶,凡是其他学科领域不欢迎的问题或者麻烦,无论出于什么原因,都会被丢进这里。俄勒冈研究所就好比一个扩容后的垃圾桶。成立之初,研究所接到了一家总部设在尤金市的承包公司的活儿。这家公司受雇在曼哈顿西区协助建造两栋非比寻常的摩天大楼,也就是后来的世贸中心。被称为“双子塔”的这两栋楼各有110层,建筑材料选用的是轻质钢结构。作为大楼的设计者,山崎实本人就有恐高症,这也是他首次设计高度超过28层的大楼。大楼的业主单位是纽约港务局,他们计划楼层越高,租金越贵,所以对工程负责人莱斯·罗伯逊提出了要求,希望他能确保住在高层的支付了高昂租金的房客们不会感觉到刮风对大楼的影响。与其说这是个工程问题,不如说是个心理问题——坐在99楼的办公桌前,你会在多短的时间内感受到楼体的晃动?意识到这一点,罗伯逊找到了保罗·霍夫曼的俄勒冈研究所。

霍夫曼在尤金市另一处绿树成荫的街区租下了一栋楼,在楼内,他在液压驱动轮的顶部搭建了一间屋子。启动开关后,整间屋子会前后摇晃,但几乎不会发出任何声音,就像是曼哈顿摩天大楼的顶层浸润在微风之中。所有这些工作都是秘密进行的。港务局不想给未来的租户造成一种他们将在大风中飘摇度日的错觉,而霍夫曼担心的是,假如他的实验对象知道自己待在一个会移动的建筑里,那他们会对晃动过分敏感,从而破坏实验结果的可信度。保罗·斯洛维克回忆道:“他们设计好这间屋子后面临的主要问题是,如何在不告诉人们原因的前提下让他们进入这间屋子。”因此,“摇晃屋”建好后,霍夫曼在楼外挂了一个“俄勒冈研究所视觉研究中心”的招牌,提出为所有到访者进行免费的眼科检查。(他找了俄勒冈州立大学心理学院的一个研究生来做助手,这个学生碰巧也是一个持证的验光师。)

在研究生给来访者进行眼部检查时,霍夫曼打开了液压驱动轮,屋子开始前后晃动起来。他很快就发现,当人们待在一个晃动的房子里面时,他们能迅速地感觉到某些东西已经晃离了原位,其感知速度之快,甚至出乎世贸中心设计师的预料。“真是个奇怪的屋子。”有人这样说,“我猜可能是因为我没戴眼镜。是恶作剧还是别的什么?太有意思了。”负责眼部检查的那位心理学家每天晚上都是头晕目眩地回到家。[1]

在得知霍夫曼的发现后,世贸中心的工程师、设计师,以及纽约港务局大大小小的官员们,一股脑地飞往尤金市,打算亲自体验一下摇晃屋。他们不相信霍夫曼的结论。罗伯逊后来在接受《纽约时报》访谈时提到了自己当时的反应:“10亿美元就这么泡汤了。”返回曼哈顿后,他仿照霍夫曼的做法自己搭建了一个摇晃屋。最终,为了让摩天大楼更加坚固,他设计了一种长约75厘米的金属减震器,并且将11000根这样的减震器安装进了每一间屋子。极有可能是因为这些额外增加进去的钢材,使双子塔在遭受那架商用飞机撞击后尽可能久地多坚持了一会儿,使14000人中的一部分人得以在大楼倒塌前成功地逃生。

对于俄勒冈研究所而言,摇晃屋不过是他们的一次牛刀小试。加盟此地的心理学家们都和保罗·霍夫曼一样,最关注人类决策问题。同时,他们对保罗·米尔的著作《临床诊断与统计预测》也产生了浓厚的兴趣。在这本书里,作者描述了心理学家在给病人进行诊断,或者预测病人行为时,败给统计公式的事例。丹尼尔在20世纪50年代中期读到的也正是这本书。在那之后不久,丹尼尔就在招募新兵的环节中用简陋的统计公式取代了人为判断。米尔本人是一个临床心理学家,他始终认为,像他这样的以及令他钦佩的心理学家,都有一些无法用统计公式表达的细微见解。然而,截至60年代初,大量研究还是对米尔最初的观点表示认可,也就是说,都对人的判断力持怀疑态度。[2]

假如人的判断力比不上一个简单的公式,那么人类就会面临一个严重的问题:大多数需要专家做判断的学科都不像心理学那样数据翔实,或者说数据至上。人类的很多活动领域都缺乏足够的数据,无法以数据为依托构建一个公式去取代人为判断。现实生活中,大多数棘手的难题都离不开某些专家的人为判断,比如医生、法官、投资顾问、政府官员、招生官员、影院管理者、棒球球探、人事经理以及在各行各业做出决断的那些人。霍夫曼和研究所里其他的心理学家一样,都想对专家做判断的过程一探究竟。保罗·斯洛维克说:“并非我们视角独特,我们只是觉得这是个重要议题:人们究竟是如何把碎片化的信息整合在一起,对之进行加工,并最终形成决议或判断的?”

有趣的是,他们的第一步并不是去研究专家们被迫与统计公式较量时表现得有多糟糕。相反,他们开始创建一个模型,以反映专家们在做判断的时候都在想些什么。或者说,就像1960年从斯坦福大学来到俄勒冈研究所的卢·戈德堡所言,“以确认在何时何地人的判断最有可能出错”。假如他们找到了专家判断出现偏差的那个点,那么专家和统计公式之间的差距就有望缩小。斯洛维克说:“我认为,如果能弄明白人类是如何做判断或做决定的,就有望改进人类的判断力,就可以使人们更准确地去预测、去判断。当时我们就是这样想的,尽管这些想法还不太清晰。”

为此,霍夫曼在1960年专门发文,就专家如何做判断这一议题进行了阐述。当然,直接去向专家讨教也能行得通,但那种方式主观性太强。言不由衷是人之常情。所以,霍夫曼提出,要想更准确地了解他们的思维过程,就必须依靠那些他们在做判断时接收到的各种信息(霍夫曼称之为“线索”),并根据他们的判断去推导不同信息所占的分量。举例来说,假如你想知道耶鲁大学的招生官员是如何选择学生的,你可以去问问他们会将哪些指标纳入考量。一般来说,他们会考虑年级平均成绩、个人成绩、运动能力、校友联系紧密度、高中学校类型等因素。然后,根据招生委员会的决策情况,你会提取出有价值的信息,会知道在他们做选择的过程中这些指标各自占据了多大的权重。假如你的数学水平足够高,你还可以搭建一个模型,来反映在招生官员的决策过程中这些指标是如何进行交互作用的。(对于来自公立学校的学生,招生官员可能更看重其运动成绩,而对来自私立学校的家境较富裕的学生,运动成绩并不是最主要的考量因素。)

霍夫曼的数学水平足以让他搭建起这个模型。在给《心理学公报》投稿的文章中,他取的标题是《临床判断中的同质异形现象》。如果说这个题目晦涩难懂,那也是因为霍夫曼本就没有指望太多人能读懂他的文章。这是自成一体的一个小世界,是心理学领域中刚刚被发掘出的一个小小角落,不会有太多人关注到它,这原就在霍夫曼的预料之中。卢·戈德堡说:“在寻常生活中做判断的人们不太可能看到这篇文章,他们不研究心理学,自然不会去看心理学期刊。”

俄勒冈研究所最初选择了临床心理学家作为研究对象,但他们很清楚,无论研究结果如何,它们对各种职业领域的决策制定者都适用,比如医生、气象学家、棒球球探等等。保罗·斯洛维克说:“也许全世界只有我们15个人在围着这个议题忙活,但是我们知道,自己在做一件非常重要的事:利用数字去解开复杂而又神秘的直觉判断之谜。”截至60年代末,霍夫曼和他的团队已经取得了一些令人激动的发现——卢·戈德堡在两篇文章中对此做过深入系统的介绍。1968年,戈德堡在《美国心理学家》这本学术期刊上发表了他的处女作。在文中,他先是列举了少量证明专家判断不及统计公式准确的研究。“从那些与日俱增的文献中我得出一个结论,”戈德堡写道,“在大量的临床判断任务(包括那些专门用于判断医生的最佳状况或者精算师的最糟状况的任务)中,最基本的精算公式就已具备足够的效度,其准确性不亚于临床专家的判断。”

那么,临床专家在做些什么?和其他曾经思考过这个问题的人一样,戈德堡也认为,当医生给病人做诊断时,他的大脑一定在进行复杂的活动。戈德堡进而又想,若要用模型来解读这个医生的思维过程,那这个模型也一定很复杂。举例来说,科罗拉多大学的一位心理学家要研究他的同行们,看他们是如何预判哪个学生在适应大学生活的过程中存在障碍。他用录音机录下了同行们分析数据时的自言自语,然后试图用一个复杂的计算机程序来模拟其思维过程。戈德堡说,他宁愿选择一种简单些的方式。在第一个个案研究中,他选择了医生诊断癌症时所采取的方法。

戈德堡解释说,之所以如此,是因为俄勒冈研究所刚刚完成了一项针对医生的研究。在俄勒冈大学,研究人员向一群放射科医生提出了这样一个问题:你们是如何根据病人的胃部X光片判断出他们患上癌症的?对方回答说,他们主要依据7个指标:溃疡的大小、溃疡边界的形状、溃烂面的宽度等。和霍夫曼一样,戈德堡称这些指标为“线索”。很显然,这7条线索之间可能存在多种不同的合理组合,医生们必须努力从每一种不同的组合中提炼出结论。比如,当溃疡面积相同时,溃疡边界平滑和边界粗糙可能意味着完全不同的两种结果。戈德堡指出,专家很容易把他们的思维过程描述得微妙而又复杂,让人很难用模型去解读。

作为尝试,俄勒冈研究所的研究人员着手设计了一个非常简单的计算程序,其中,上文提到的7个指标被赋予了相同的权重,由它们来共同决定溃疡是良性的还是恶性的。下一步,研究人员会让医生们根据一个7级量表,从96张不同的胃部溃疡图片中判定哪些是癌症。量表的7个选项从“肯定是恶性”到“肯定是良性”逐级过渡。他们将每张溃疡图片放映两遍,并且在医生不知情的情况下,随机混入了某些图片的复制品,所以,医生们并不知道他们面前的这张图片其实是早先已经被他们诊断过的。研究人员没有电脑,所有数据都被他们转写在打孔卡片上,被邮寄至加州大学洛杉矶分校,由那里的大型计算机进行处理。他们希望能够创建出一个计算程序,来模拟医生的决策过程。

戈德堡以为,这第一次简单的尝试仅仅是个开始。计算程序的复杂性有待提高,需要涉及高深的数学知识,需要能对医生衡量线索时的微妙反应做出解释。例如,当溃疡面积超大时,医生可能得对其他6条线索重新做出判断了。

然而,当加州大学洛杉矶分校将数据分析结果反馈回来时,俄勒冈研究所的研究人员有些坐不住了(用戈德堡的话说,这个结果“令人害怕”)。首先,他们为洞悉医生的诊断过程而试着设计的这个简单的程序竟然相当有效,它能够极其准确地预测医生的诊断。医生们可能认为自己的思维过程既微妙又复杂,没想到这个数学模型竟能将这一过程记录得分毫不差。这当然不是说医生们的思维过程一定很简单,只能说这个过程完全可以用一个简单的公式反映出来。更令人震惊的是,图表显示,医生们彼此之间的诊断结果也互不相同。不仅如此,在两次看到同一张溃疡图片后,他们前后矛盾地给出了两种不同的诊断。这说明,医生们不仅与他人的判断有出入,还与自己的判断相矛盾。“这些研究发现表明,与临床心理学的情况相比,临床医学中的诊断并不具备更高的一致性——下次去看家庭医生时,你得三思而行了。”戈德堡写道。如果医生自己都不能做到诊断结果前后一致,那诊断的正确性自然就得不到保证。

之后,研究人员又以临床心理学家和精神科医生为对象,重复了这项实验。对方提供了一系列能够反映精神病人是否已痊愈并且可以出院的指标,他们的判断结果又一次被呈现在图表上。令人更感奇怪的是,专业经验最少的医生(研究生)在判断哪个病人可以出院的问题上,和经验最丰富的医生(高薪资深医师)一样准确。工作经验似乎与诊断准确性(比如判断哪个人有自杀倾向)没有关联。用戈德堡的话来说,“他们在这项任务中表现出的精确性与其专业经验的多寡没有关系”。

然而,戈德堡依然没有急着去怪罪医生们。他在文章的结尾处指出,问题的根源可能在于,医生和精神病专家之前很少有机会去评判,或者在必要的时候,去调试自己的思维准确性。他们缺少的是“即时反馈”。因此,他和俄勒冈研究所一位名叫伦纳德·罗勒的同事联手,打算制造这种“即时反馈”。他们将医生分为两组,给每组都提供了上千个病例让他们诊断,其中一组可以在诊断后立即得到反馈,另一组则不能。这样做的目的,就是想看一看得到反馈的那一组是否能在之后的判断准确性上有所提高。

结果却并不乐观。“如今看来,我们最初对于研究临床介入问题的设想太过简单了——要洞悉这种难度的任务,仅靠结果反馈是不够的,还需要有更多的其他信息。”戈德堡写道。在这一点上,俄勒冈的另一位研究人员——戈德堡记不清是谁了——提出了一个大胆的建议。“他说,‘你搭建的那些用来反映医生思维过程的模型中,可能会有一个比医生的诊断还准确’,”戈德堡回忆道。“我想,天哪,说什么傻话,这怎么可能?”如此简单的模型怎么会比医生的诊断,比如诊断癌症,还要准确?模型其实就是由医生们自己打造的,因为其中的所有信息都是他们自己提供的。

尽管半信半疑,但俄勒冈研究所的研究人员还是对这个假设进行了验证。结果证明,这位同事的猜想是正确的。假如你想知道自己是否患了癌症,那最好的办法并不是去找放射科医生分析你的X光片,而是用研究人员的这套模型去测算一下。这套模型不仅胜过了医生这个整体,而且在和单个优秀医生做比较时,它也更胜一筹。要想打击一个医生,你只需用一个医学门外汉制作的公式将他取而代之就足够了。

当戈德堡开始提笔写第二篇文章“人与人造模型”时,无论对专家,还是对俄勒冈研究所采用的方法,他显然已经不像原来那样乐观了。“我在文章中记录了试验的失败之处——没能诠释人类判断之复杂性。”他提到自己发表在《美国心理学家》上的第一篇文章,“以前那些文献大多是对专业人士进行临床诊断时可能存在的复杂交互活动进行的猜测,鉴于此,我们曾天真地以为,仅凭‘线索’之间单一的线性组合无法准确地预测人们的判断,因此打算马上投身到更加复杂的数学模型的构建中去,以准确地反映个体在做判断时使用了何种策略。其实这是多此一举。”医生们在考虑某个溃疡的某种特质在诊断中占多大比重时,似乎自有一套理论。而这个数学模型与他们的理论完全吻合,能够对溃疡做出最准确的诊断。只可惜,在实际操作中,医生们也未能完全遵守他们的这套理论,只能遗憾地被自己创造的模型击败了。

这一发现具有重要的意义。戈德堡写道:“如果能将该结论应用于其他领域的判断过程,那么靠主观判断来聘用人员的方式大概只能在数学模型面前甘拜下风了。”但是,为什么会这样?为什么一个专家——比如医生——的判断竟然不如一个模型准确,而这个模型还是用专家自己的知识搭建起来的?在这一点上,戈德堡只能无奈地表示,专家也是人。“临床医生不是机器,”戈德堡写道,“就算他掌握了全部的专业知识,拥有了所有能让他提出研究假设的技能,他还是无法拥有机器独有的可靠性。他会有常人都有的烦恼:厌倦、疲惫、疾病、环境的影响、人际关系的困扰。凡此种种,无不在销蚀他,最终让他在同一件事情上会做出完全不同的判断。要想消除这些判断过程中的偶发错误,以规避人类的不可靠性,我们应该提高预测结果的效度。”

就在戈德堡发表这篇文章后不久,1970年夏,阿莫斯·特沃斯基来到了俄勒冈州的尤金市。他是途经此地,来看望他的老朋友保罗·斯洛维克,之后打算去斯坦福大学待上一年。两人曾同在密歇根大学读书。斯洛维克当年是校篮球队的成员,对于和阿莫斯一起在车道上练投篮的往事,他还记忆犹新。阿莫斯不是校队成员,投篮时基本都是把球砸在篮筐上——他的跳投姿势不像是打篮球,倒像是做体操,用他儿子奥兰的话说,“以比别人慢半拍的速度,把抱在胸前的球晃晃悠悠地扔向篮筐”。尽管如此,阿莫斯对于篮球还是有种莫名的热衷。“就像有的人喜欢边走路边说话一样,阿莫斯就喜欢投篮,”斯洛维克说,他还小心翼翼地补充道,“他看起来不像是个常练投篮的人。”见面后,两人又一次拿起了篮球。投球时,阿莫斯告诉斯洛维克,他和丹尼尔近期一直在琢磨人脑的内部运行机制,希望能进一步探索直觉判断的形成过程。“他说他们想要找一个安静的地方,能避开大学里的各种干扰,集中精力专门研究这个课题。”斯洛维克说。关于专家为何也会犯一些重大的、系统性的错误,他们已经有了一些初步的结论:并非因为专家们当日运气太糟。“他们的精妙见地让我大开眼界。”斯洛维克说。

阿莫斯已经答应斯坦福大学,要在1970—1971年期间去那里做研究,所以他和仍然留在以色列的丹尼尔暂分两地。这一年里,两人约好分头收集数据。数据的来源就是他们所设计的那些有趣的问题。丹尼尔选择的第一批被试是高中生。他让20来名希伯来大学的研究生坐着出租车,去以色列各地寻找这个年龄段的孩子(“耶路撒冷基本上没有几个中学生”)。研究生会提出2~4个在孩子们看来很奇怪的问题,并要求他们用几分钟的时间来回答每一个问题。“问卷上列有很多问题,”丹尼尔说,“孩子们肯定做不完,所以只能挑其中几个来问他们。”

请思考下列问题:

调查对象是该市所有有6个孩子的家庭。其中,在72个家庭里,孩子的出生顺序是女孩、男孩、女孩、男孩、男孩、女孩。

请猜一猜,出生顺序为男、女、男、男、男、男的家庭共有多少个?

也就是说,在这个虚构的城市中,假如在72个有6个孩子的家庭中,孩子的出生顺序是女孩、男孩、女孩、男孩、男孩、女孩,那么你估计有多少个六子之家的孩子出生顺序是男孩、女孩、男孩、男孩、男孩、男孩?没人知道这些以色列高中生对此问题做何感想,但是研究生们一共收集到了1500份反馈。而远隔重洋的阿莫斯也把一些同样古怪的问题抛给了被试,只不过他选择的是密歇根大学和斯坦福大学的大学生。

在游戏环节的每一轮,都会有20个石子儿被随机分配给5个孩子:阿兰、本、卡尔、丹、爱德。请看以下分配方式:

第一种 第二种

阿兰:4个 阿兰:4个

本:4个 本: 4个

卡尔:5个 卡尔:4个

丹:4个 丹: 4个

爱德:3个 爱德:4个

在多轮游戏中,是否还会出现上述两种分布情况?

这道题的目的是,在很难判断概率的情况下,看一看人们是如何做出判断的,或者说是如何做出错误判断的。所有问题都有标准答案。被试提供的答案会被拿来和标准答案做对比,凡是错误答案都会被进一步分析。“总体目标是:了解人们在做什么?”丹尼尔说,“人们在判断概率时,他们的大脑究竟在干什么?这是个很抽象的问题,但是,它一定有答案。”

在他们虚构出来的这些问题面前,大部分被试都会答错——这一点本就在阿莫斯和丹尼尔的预料之中,因为他们自己就曾在类似问题上出过错。更确切地说,丹尼尔答错过,并且意识到他犯了错,于是对他犯错的原因进行了理论化处理。而阿莫斯对丹尼尔的错误以及丹尼尔对错误的认识满心关注,导致他不由自主地也犯了同样的错。“我们执着于此,以至于专注变成了直觉,”丹尼尔说,“只有亲身犯过的错,在我们看来才是有趣的。”假如他们两人在思维过程中栽了同样的跟头,或者是不自觉地栽了跟头,那他们就能断定,大部分人也会重蹈他们的覆辙——事实证明的确如此。一年间,两人在以色列和美国分头开展的调研与其说是实验,倒不如说是一个个小惊喜:看啊,飘忽不定的人类思维原来是这样运作的。

很小的时候,阿莫斯就发现,有些人专门爱把生活复杂化。他有一种远离那些“过分复杂的人”的天赋。但是,他时不时地会遇到一些人,通常是女性,她们的复杂性却引发了他的兴趣。上高中时,他就和日后成为诗人的戴利亚·拉维科维奇私交甚好,这让同龄人不禁感到意外。他和丹尼尔的友情也给旁人带来了同样多的意外。阿莫斯的一位老友后来回忆道:“阿莫斯总说,‘人本身并不复杂,复杂的是人与人之间的关系’。然后他会稍事停顿,补充一句:‘我和丹尼尔除外。’”丹尼尔身上有一种特质,能让阿莫斯放下防备,并且能让他在与丹尼尔独处的时候,变成另一个人。“当我们一同工作时,阿莫斯的怀疑精神会被暂搁一边,”丹尼尔说,“他很少在其他人面前这样做。而这一点,恰恰是我们之间合作的动力。”

1971年8月,阿莫斯携妻带子,连同一堆数据,回到尤金市,搬进了半山上能够俯瞰整个城市的一所公寓。俄勒冈研究所的一位心理学家外出休假,是他将房子暂租给了阿莫斯。“屋内的恒温设定在29.4摄氏度,”芭芭拉说,“房子里是落地窗,没有安窗帘。他们留下了一大堆待洗的东西,但其中没有一件是衣服。”没过多久他们就得知,房东都是些裸体主义者。(欢迎来到尤金市!别往下面看!)几周后,丹尼尔也携妻带子,连同更大的一堆数据,来到了尤金市,搬进了一处在丹尼尔看来比裸体主义者还要让人不安的住所:带草坪的屋子。对于庭院整葺之类的工作,没人能比丹尼尔更懂其中的不易了,但他表现出了一种难得的乐观。尽管他是从一个阳光丰裕的城市而来,但是,他后来说:“在我的记忆中,尤金市始终阳光明媚。”在尤金度过的时光里,其实多云的日子远远多过晴天。

不管天气如何,丹尼尔大部分时间都待在室内,在那个由曾经的一神教教堂改造而成的办公楼里,他和阿莫斯继续探讨着他们在耶路撒冷时就开启的话题。丹尼尔说:“我有一种感觉,我的生活发生了改变。我们总是心有灵犀,能飞快地了解对方的想法,比了解自己还要快。所谓创造的过程,通常是指你提到了某个想法,然后也许要过上若干年,你才恍然大悟。而在我们身上,这个过程被大大地缩短了。我刚一说出某个想法,阿莫斯马上就能明白。每当我们中间有人灵感突发地提到一个建议,另一个人总会设法从中寻找出闪光点。你刚说出上半句,对方就能接出下半句,而且往往能说中要害。当然,我们也经常给对方带来惊喜,有些时候真能被对方的想法惊得汗毛倒立。”在此期间,他们也头一次在职业生涯中拥有了可供自己调配的团队,录入论文的活儿交给团队成员,寻找研究被试的活儿交给团队成员,筹集研究经费的活儿也交给团队成员。而他们只做一件事:交谈。

人类的思维结构中,有一部分专门制造错误,这个问题也成了他们交谈的重点。他们开始思考,这部分思维结构会犯哪些可爱的错误,或者说会导致哪些偏见。渐渐地,他们形成了一种固定模式:丹尼尔会在每天早晨去办公室,分析头一天俄勒冈大学的学生提交上来的问题反馈。(丹尼尔不喜欢拖沓,对于不能在24小时内开展数据分析的那些研究生,他会训诫说:“在研究生涯里,拖沓可是个不良之兆。”)快到中午时,阿莫斯才会现身。他们两人会一起步行去一家卖炸鱼和炸薯条的快餐店,和众多食客一样站着解决午餐。然后,他们再返回办公室,把当天余下的时间都用来交谈。“他们自有一套独特的工作方式,”保罗·斯洛维克回忆道,“那就是一个小时接一个小时地谈话,谈起来没个完。”

和希伯来大学的教授们一样,俄勒冈研究所的科研人员也发现,不管阿莫斯和丹尼尔在谈什么,他们都显得很开心,因为他们的谈话差不多有一半的时间都伴随着笑声。他们一会儿用希伯来语,一会儿用英语,打断对方时,两种语言又会交杂在一起。他们适逢生活在尤金市,周围多是慢跑爱好者、裸体主义者、嬉皮士,以及黄松密布的森林,但就算他们身在蒙古国,也不会有丝毫影响。“我觉得他们两人对地理环境压根儿不在乎,”斯洛维克说,“他们不在乎身处何地,只在乎彼此的想法。”同样被大家注意到的,还有两人谈话中透露出的私密性。在来尤金市之前,阿莫斯还模棱两可地表示希望让保罗·斯洛维克和他们一起干,但是待到丹尼尔前来,形势就变得很明朗:斯洛维克是个局外人。“我们不可能三人同行,”保罗·斯洛维克说,“他们两人不希望被任何人打扰。”

有趣的是,他们并不愿意做原来的自己,而是希望成为他们在一起时的那个自己。于阿莫斯而言,工作就是玩乐,假如在工作中感受不到任何乐趣,他会觉得这份工作不值得一做。如今,这种心态也影响到了丹尼尔。一切都是全新的感受。丹尼尔就像是个拥有全世界最棒的玩具柜的孩子,因为太过优柔寡断而变得木讷,以至于从没充分享受过玩具带给他的快乐,只会一味地在玩具水枪和电动滑板车之间举棋不定,纠结不已。阿莫斯的出现是个异数,是他对丹尼尔说“来吧,打起精神,让我们把这些东西通通玩一遍”。在两人后来的相处中,丹尼尔也有几回陷入了深深的沮丧中。他会来回踱着步子,嘴里念念有词:我的灵感没了。即便在这时,阿莫斯也能从中打趣。两人共同的朋友阿维沙·玛格里特回忆说:“每当听到丹尼尔说‘我完了,我的思维枯竭了’,阿莫斯总会笑着说:‘丹尼尔一分钟内的想法都要多过100个人100年内的想法。’”两人坐下来写作时,身体几乎像粘在了一起,偶尔瞥见这一幕的人不禁会觉得不可思议。“写东西时,他们会并肩坐在打字机前,”密歇根大学的心理学家理查德·尼斯比特回忆说,“我简直无法接受。那感觉就像是让其他人来替我刷牙。”可是用丹尼尔的话说:“我们是在共享思想。”

他们的第一篇文章——他们仍然多多少少视之为在学术界的一次玩儿票——已经指出,在面对那些有正确答案的概率问题时,人们并没有像统计学家那样去做判断。即便是统计学家自己,也没有以统计学者的方式去思考。《小数定律之我见》这篇文章又引出了另一个显而易见的问题:假如人们没有依靠统计推理去解决问题,即便这些问题可以通过统计推理得出答案,那么他们又是在依靠哪一种推理方式?在各种充满随机性的生活场景下,比如在21点牌的牌桌上,如果他们没有做这般思考,那又是如何思考的?在第二篇文章中,二人对上述问题进行了详细的解答。至于题目,这正是让阿莫斯纠结的一点。没想好题目,他就拒绝动笔。在他看来,题目能准确地反映文章想要表达的主题。

然而这一次,他们给文章取了个晦涩难懂的题目。至少在起步阶段,他们还得遵守学术圈儿的游戏规则,如果题目浅显直白,那么文章是引不起重视的。他们头一次尝试探讨人类判断之谜的这篇文章被取名为《主观概率:代表性判断》。[3] 主观概率——人们大概能猜出来是什么意思。所谓主观概率,是指人们对于某件事情发生的概率的主观猜测或评价。午夜时分,当你透过窗子看到上中学的儿子蹑手蹑脚朝前门走来时,你对自己说:“他八成刚刚喝了酒。”这就是主观概率。但是,什么叫作“代表性判断”?“主观判断在生活中扮演着重要的角色,”文章这样开了头,“我们所做的决定,所形成的结论,所提出的解释,通通都是基于我们对不确定事件的可能性所做的判断,例如,一份新的工作,一个未知的选举结果,或者一个未卜的市场前景。”在此类情境中,人的大脑并没有顺理成章地去计算正确概率。那它究竟做了什么?

丹尼尔和阿莫斯给出了答案:大脑用经验法则代替了机会法则。他们把这些经验法则称为“启发性”的。而他们意欲探讨的第一个启发性法则就是“代表性”。

两人指出,人们在做判断时,都会把所判断的东西和他们大脑中的某个既定模式做对比。这些云朵和我所知道的暴风雨临近时的云朵是不是相同?这个溃疡与我心目中恶性肿瘤的样子是不是一样?林书豪是否符合我对NBA未来球星的想象?那位好战的德国元首像不像一个精心策划种族灭绝政策的杀人狂魔?世界不仅是个舞台,它还是个赌场,每个人的生活都像是一场胜负难料的赌局。当人们在不同的生活场景中进行概率揣测时,其实是在对相似性——或者说是代表性——进行判断。你对于总体有一个基本概念,比如“象征暴风雨的云朵”“会癌变的胃部溃疡”“实施种族灭绝政策的独裁者”,或者“NBA的球员”。遇到具体事例时,你会把它们拿来与总体概念进行比较。

至于这些思维模式一开始是如何形成的,以及人们是如何对代表性进行判断的,阿莫斯和丹尼尔并没有深究下去。相反,他们关注的是人们脑海中的思维模式在哪些情况下最明显。某个具体对象与你心目中的形象越接近,你就越有可能认可它的代表性。他们写道:“我们的论点是,在多数情况下,只要事件A比事件B具有更多的代表性,我们就认为事件A的发生概率要高于事件B。”某个篮球运动员与你心目中NBA球星的形象越相似,他就越有可能被你看成是NBA球员。

他们有一种直觉,那就是,人们在做判断时,犯下的错误并不是随机的,而是系统性的。在给以色列中学生和美国大学生发放的问卷中,那些稀奇古怪的问题就是用来探查和梳理人类错误的形式的。这个问题很抽象。被他们称为“代表性”的经验法则并不总是错误的。如果说在不确定的状况中,思维所采取的方式有时会做出错误的判断,那也是因为这种方式通常情况下很有效。能够成为NBA球员的人,大多和你心目中NBA球员的典型形象相一致。但也有个别人是例外,人们因而会犯一些系统性错误——你可从中窥见经验法则的影子。

例如,在有6个孩子的那些家庭中,孩子的出生顺序既有可能是男、女、男、男、男、男,也有可能是女、男、女、男、男、女。但是在参与调查的以色列孩子看来——他们和世界上任何地方的孩子都一样——女、男、女、男、男、女这种出生顺序更可能发生。为什么?“因为5个男孩1个女孩这样的组合不符合以色列男女人口的比例。”他们解释道。这个组合不具有代表性。此外,如果让同样一批以色列孩子从另外两组出生顺序——男、男、男、女、女、女和女、男、男、女、男、女——中间做选择,他们绝大部分选择了后者。这两种出生顺序同样都可能存在。为什么他们会选择后者,而不是前者?丹尼尔和阿莫斯解释说,是因为人们认为出生顺序具有随机性,上述顺序中,后者看起来随机性更大一些。

那么接下来的问题就是:在计算概率时,我们所依靠的经验法则是在什么时候引起重大计算失误的?有一种答案是:凡是在人们必须对含有随机成分的东西做评判时,失误必会发生。丹尼尔和阿莫斯在文中指出,仅凭不确定事件与总体之间的相似性是不足以说明问题的。“它还应该能反映出它所依附的不确定过程的各种属性。”也就是说,假如过程充满随机性,那么结果也应该表现出随机性。二人并没有对“随机性”的思维模式一开始是如何形成的做出解释。他们只是说,让我们来讨论那些带有随机性的判断吧,对于何为随机性,心理学家有着高度一致的见解。

“二战”期间,伦敦的居民始终认为空中落下的炸弹是定向投放的,因为城区中有些地方连续被炸,而有些地方一直都能幸免。(统计学家后来证明,炸弹投掷的范围与随机轰炸波及的范围是完全一致的。)当两个同班同学同一天生日时,人们会觉得这是个很典型的巧合,但事实是,在任何一个由23人构成的群体中,两个人在同一天出生的可能性都会超过50%。我们心目中的“随机性”与真正的随机性相去甚远,因为我们所认为的“随机性”中不包含那些只有真正的随机性才包含的内容和形式。假如你将20个石子儿随机地分给5个孩子,那他们每人更有可能得到4个(见前文第二种分配方式),而不是得到第一种分配方式所显示的那组数字。但是,作为被试的美国大学生坚持认为,第一种分配方式要比第二种分配方式更有可能出现。这是为什么?因为第二种分配方式“看起来太均等了,不像是随机而为”。

丹尼尔和阿莫斯在文中提出了这样一个疑问:随机性是可估量的一个东西,假如对它的错误认识会导致人们产生误判,那还有多少更模棱两可的错误认知会引导人们做出错误判断?

美国成年男女的平均身高分别是1.78米和1.63米。两组的标准差都是6.35厘米。[4]

调查者随机抽取了一个性别组,并且从中随机选取了几名被试。

你认为,在以下前提下,调查者选取男性组的可能性是多大?

1.有一个被试的身高是1.78米。

2.被试中,有6人的平均身高是1.73米。

大部分人认为,要满足第一个条件,则该组为男性组的概率是8∶1;而要满足第二个条件,该组为男性组的概率就是2.5∶1。但其实,第一种情况的正确答案是16∶1,第二种是29∶1。由6个人构成的样本组要比单人样本提供的信息多得多。然而,人们还是会错误地认为,如果某人的身高达到1.78米,那么比起6人平均身高是1.73米的情况,前者更有可能说明该组成员性别为男性。之所以没能正确估计出真实概率,是因为人们把可能性较低的那个命题误当成了某个可能性较高的命题。阿莫斯和丹尼尔推断,人们之所以这样做,是因为当他们看到1.78米这个数字时,心里会想,这明显是个男人!他们一贯认为只有男性才会长这么高,这种思维定式遮蔽了他们的双眼,使他们忘记了这也有可能是一个女人的身高。

某个城镇有两家医院。在较大的那家医院里,平均每天会迎接45名新生儿。在较小的那家医院中,平均每天会迎接15名新生儿。新生儿中约有50%是男孩。但是,男性新生儿所占的百分比每天都不同,有时高于50%,有时低于50%。

在一年间,两家医院对于男性婴儿日出生比例高于60%的天数进行了统计。你认为哪家医院所统计的天数更多?请从下列选项中选择。

——大医院

——小医院

——基本相同(即浮动小于5%)。

这一次,人们又出错了。大部分人选择了“基本相同”,而正确答案是“小医院”。样本量越小,就越不可能代表总体。“当然,我们并不想说人们不懂得样本量对于取样差异性的影响,”丹尼尔和阿莫斯写道,“人们能够学会正确的方法,而且可能掌握得很快。关键是,当自己动手解决问题时,他们并不照规矩来。”

一头雾水的美国大学生可能会说:这都是些什么稀奇古怪的问题!它们和我的生活有什么关系?但阿莫斯和丹尼尔坚信,关系很大。文中写道:“在日常生活中,人们常常会问自己和他人这样的问题:那个12岁男孩将来成为科学家的可能性有多大?那个候选人成功晋级的概率是多少?那家公司闭门歇业的概率是多大?”二人承认,他们把范围限定在了那些能够通过客观计算得出概率的问题上。但是他们确信,在那些很难判断其概率的问题面前,人们还是会犯相同的错误。比如,在揣测某个男孩长大后会靠什么谋生时,人们总会受思维定式的影响。假如该男孩与他们心目中科学家的形象相符,那他们就会坚信对方长大后会从事科研工作,而完全不考虑有多少孩子会真的成为科学家。

当然,至于人们是不是在这些很难知晓其概率的问题上做出了错误判断,你无法验证。在正确答案并不存在的情况下,你如何能证明人们给出的是错误答案?但是,在概率可知时,如果人们因为受相似性的影响而做出了误判,那比起概率完全不可知的情况,他们的判断有没有可能更准确一些?

丹尼尔和阿莫斯的第一个主要观点是:人的思维中存在一种机制,它既能帮助人做出正确的判断和决定,又能导致严重的判断失误。他们在俄勒冈研究所写下的第二篇文章描述了另一个思维机制,这与他们形成第一个观点仅仅相隔几周。丹尼尔说:“并不总是代表性在发挥作用,还有些其他东西。也不光是相似性。”新论文的题目越发晦涩难懂了:《可得性:频率与概率判断的启发式》。两位作者再一次借助了学生回答问题所提供的反馈。大部分学生都来自俄勒冈大学,他们如今成了二人长期合作的实验对象。他们将一大批学生集中在教室里,要求对方不借助字典或任何文本,回答以下这些古怪问题:

有人对英语中26个字母的出现频率进行了研究。先选择一个典型文本,然后记录下不同字母出现在单词首字母和第三个字母上的相对频率。字母数不足3个的单词不在统计范围内。

研究人员将给你指定几个字母,要求你判断这些字母是否更多地出现在单词的首字母或者第三个字母上,并且判断它们出现在上述位置中的比例。

以字母K为例:

K更有可能出现在:——首字母上

——第三个字母上

(二选一)

我估计K出现在上述两个位置的比例是:()∶1

如果你认为K出现在单词首字母上的可能性是出现在第三个字母上的两倍,那么上述问题中你会选择第一个选项,比例填空中你会填2∶1。通常情况下,人们就是这样判断的。丹尼尔和阿莫斯又将字母R、L、N和V拿来进行同样的统计,结果发现,这些字母出现在单词第三个字母上的频率通通都大于出现在首字母上的频率,其比例是2∶1。人们的判断又一次出现了系统性错误,错得离谱。丹尼尔和阿莫斯指出,之所以出错,是因为记忆扭曲了认知。人们更容易回想起以K打头的单词,而不太容易想起K在第三个字母上的单词。

人们越是容易回想起某个场景,即可得性越高,就越有可能认为这个场景是存在的。某个刚刚发生、格外生动、格外常见的事件,或者任何一件碰巧已经先行占据人的思维的东西,极有可能被人们轻而易举地回想起来,并最终在他们的判断中占据不合宜的比重。丹尼尔和阿莫斯已然发现,在某个刚刚发生的事情的干扰下,他们的判断力变得相当不可靠。比如,在公路上遇到一起惨不忍睹的车祸后,他们的驾驶速度明显会慢下来,因为他们对于遭遇车祸的可能性已经有了不一样的判断。看完一部描写核战争的影片,他们对核战争的忧虑更甚于从前,甚至可以说,他们觉得核战争极有可能发生。人们在概率判断中表现出的反复无常——一部两小时长的电影就能改变他们的观点——足以说明思维中负责此类概率判断的那套机制究竟是不是可靠。

接下来,他们又介绍了另外9个同样古怪的小实验,以进一步描述记忆是如何戏弄人的判断力的。丹尼尔觉得,记忆玩弄的这些小把戏很像是他年轻时看到的格式塔心理学家提出的视觉幻象。这些东西摆在你面前,愚弄了你,让你迫不及待想知道为何会如此。他和阿莫斯要展现的,不是视觉幻象,而是思维幻象,但二者的作用是相似的。而且这一次,他们可用的素材相当丰富。比如,他们给俄勒冈大学的学生读一串人名,共39个人名,每2秒读出一个名字。这些名字的性别特征很明显。其中有几个是著名人物,比如伊丽莎白·泰勒、理查德·尼克松;还有几个是知名度不那么高的人,比如拉纳·特纳,威廉·富布赖特。共有两张名单,其中一张名单上有19个男性名,20个女性名;另一张名单上有20个女性名,19个男性名。女性名居多的名单中包含更多的男性著名人物,而男性名居多的名单中包括更多的女性著名人物。毫不知情的俄勒冈大学的学生们在听完一串名字后,被告知要对这组名字中男性名居多还是女性名居多做出判断。

结果,他们的答案和事实南辕北辙。如果名单中本来男性名居多,但因为女性名都是些著名人物,学生们就以为这份名单中女性名居多。反之亦然。做完这些奇怪的小实验后,丹尼尔和阿莫斯在文中写道:“每个问题都有一个客观公正的答案,在很多现实情况中,人们并不是这样进行概率判断的。每一次经济萧条,每一场成功的手术,或是每一桩破裂的婚姻,从根本上来看都是独一无二的,都不可能仅凭一个简单的统计公式来判断它的概率。但是,我们可以用便利性启发式来判断这些事件的可能性。例如,在判断一对夫妻会不会离婚时,你可能会在自己的记忆库中搜索情况相似的夫妻。假如你从记忆库检索到的夫妻多数都离异了,那么你会判断眼前这对夫妻同样有可能离异。”

并非人们愚笨,而是因为在判断概率时,人们所奉行的原则(越容易想起来的事儿,就越容易是真实存在的)往往发挥了强大的作用。但是,当他们要去对那些很难从其记忆库里找到判断依据的事情做出评判时,带有误导性的信息会轻而易举地入侵他们的思维,这个时候,他们就会做出错误判断。“因此,”阿莫斯和丹尼尔写道,“可得性启发式会导致系统性偏见的出现。”人的判断会被那些容易被记住的事情所扭曲。

在明确了思维中负责不确定性的两种机制之后,阿莫斯和丹尼尔自然而然地又有了下一个追问:还有别的吗?在这个问题上,他们显然没有太大把握。离开尤金之前,他们草草写下了一些想法。“条件性启发式”是他们就此问题提出的另一个术语。他们注意到,在判断某件事情的不确定程度时,人们会做出“不加说明的假设”。“例如,评估一家公司的盈利情况时,人们会假定经营条件正常,在这一假定的基础之上,他们再做评估,”二人在笔记中写道,“他们没有将非正常经营条件考虑在内,比如战争、经济萧条或主要竞争对手已被迫退出市场。”显然,此处存在另一种导致错误判断的情况:人们对有些事一无所知,但问题在于,他们不愿自找麻烦地在做判断时将自己不知道的东西作为重要因素考虑在内。

他们认为还可能存在的另一个启发式叫作“锚定与调整性启发式”。他们通过一组中学生演示了这种情况。学生需在5秒钟之内猜出一道数学题的答案。第一组学生拿到的题目是:

8×7×6×5×4×3×2×1

第二组的题目是:

1×2×3×4×5×6×7×8

5秒钟的时间显然不足以完成一道数学计算题,因此他们只能靠猜。两组的答案本该是接近的,但结果却并非如此。第一组答案的中位数是2250,第二组答案的中位数是512(正确答案是40320)。第一组学生之所以给出了一个数值较高的答案,是因为他们以8作为起始点,而第二组学生选择的起始点却是1。

思维的这个小把戏实在是简单得让人难以去演示。人们会根据一个与有待解决的问题毫不相关的信息去确定思维之锚。比如,丹尼尔和阿莫斯要求被试去转动一个指针范围从0到100的大转轮,然后让对方猜测联合国里有多少个非洲国家。那些让转轮指针停在较大数字上的人,往往判断联合国里有较多的非洲国家;而让转轮指针停在较小数字上的人,则判断联合国里的非洲国家较少。这是为什么?锚定性是不是和代表性和可得性一样,也是一种启发式?它是不是人们在找不到某个问题的真正答案时所采取的一种对策?阿莫斯认为是,而丹尼尔却认为不是。他们两人从没在这个问题上达成过百分之百的共识,因而也没有就此写过文章,只是把它作为一个部分写进了研究总结。丹尼尔说:“我们依然要将锚定性考虑进来,因为它的影响实在是太惊人了,但是,我们也因此无法准确定义何为启发式了。”

丹尼尔后来说,很难说得清他和阿莫斯一开始都在做些什么:“那是一团概念的迷雾,怎么能解释得了?”他说,“没有知识工具能用来诠释我们的研究发现。”他们研究的是偏见,还是启发式?研究的是错误,还是引起错误的机制?错误使你能对以下机制进行部分的描述:偏见与启发如影随形。偏见很快也将拥有个性化的名字,比如“近因偏见”和“生动性偏见”。但是,当他们试着探寻自己犯过的错误,然后去思维海洋里追溯这些错误的源头时,却偶然发现,有些错误是无迹可寻的。对于没有明确机制的系统性错误,他们该如何是好?“我们实在想不出其他的了,”丹尼尔说,“只存在极少的几种机制。”

他们从未试图去解释代表性启发式的思维基础是如何形成的。同样,对于人类记忆是如何让可得性启发式误导我们的,他们也没有多谈。他们的注意力完全放在这些启发式所变的那些戏法上。一个人越是在复杂的、接近生活的场景中做判断,就越容易被可得性所误导。在很多复杂而真实的情境中,比如埃及会不会侵略以色列,或者当丈夫的会不会另寻新欢,人们总是会构建场景。深藏在记忆中的、被我们编织起来的故事,成功地取代了概率判断。“扣人心弦的场景很容易束缚我们的后续思考,”丹尼尔和阿莫斯写道,“大量证据显示,一旦我们以某种方式对不确定情况做出了感应或诠释,就很难再换成另一种方式。”

但是,人们所编织的这些故事也受到素材便利性的影响。“过去的经历塑造着你对未来的看法。”他们写道。桑塔亚纳曾有个关于历史的名句:忘记过去的人注定要重蹈覆辙。他们把这句话做了个颠倒。他们提出,人们对过去的记忆很容易改变他们对未来的判断。“当我们认为某个结果完全不可能时,其实是因为我们的脑海中搭建不起这样一条能够导致该结果的事件链。问题往往就出在我们的想象上。”(这句话并不出自他们已刊发的文章,而是摘自文章发表一年后他们所写的研究总结。)

当一切未知或者不可知时,人们编织的故事自然就很简单。丹尼尔和阿莫斯总结道:“只考虑相对简单的场景,这种倾向可能在矛盾情境下具有格外重要的作用。处在矛盾中时,个人情绪和想法比起对手的情绪和想法更具有可得性,因为你不大可能知道对手关于棋局或者战局的看法。”想象似乎也受某种规则的支配,这些规则制约着人们的思考。对一个1939年生活在巴黎的犹太人而言,判断德军是否会像1919年那样作战,远比预测德军会在1941年采取什么动作要容易得多。

[1] 关于世贸中心双子塔的建成和坍塌,詹姆斯·格兰茨和埃里克·利普顿曾写过一篇精彩的文章,于“9·11”一周年纪念的前几日刊发在《纽约时报杂志》上。在此我要向他们二人给予我的启发表示感谢。威廉·庞德斯通的著作《无价之宝》中还有一些关于摇晃屋的详细描述。

[2] 在该书出版32年之后的1986年,米尔写了一篇短文,题为《拙作的因与果》。在文中,他对当时甚嚣尘上的证明专家判断靠不住的一些实例进行了分析探讨。米尔写道:“当你调查了90个对象,以检验他们对足球比赛结果或肝病诊断方案的预测能力时,你发现只有不到半打的证据勉强站在临床医师这一边。这个时候,你就该做出结论了。……并不是针对某个人发动人身攻击,而是对事实加以诠释。我认为,这种结果只不过又一次证明,人类行为中的不理性因素是普遍存在而且不服管束的。”

[3] 合作之初,二人就意识到很难分得清谁对文章的贡献更大,所以他们决定轮流来当第一作者。在《小数定律之我见》发表时,阿莫斯靠抛硬币荣当第一作者,所以在《主观概率:代表性判断》这篇文章中,第一作者是丹尼尔。

[4] 标准差是描述总体分布情况的一个统计数值。标准差越大,总体差异性就越大。当男性平均身高是1.78米时,若标准差为6.35厘米,意味着有68%左右的男性身高处在1.72米到1.84米之间。