首页 » 逻辑思维:拥有智慧思考的工具 » 逻辑思维:拥有智慧思考的工具全文在线阅读

《逻辑思维:拥有智慧思考的工具》第8章 错误的“关联”

关灯直达底部

若想准确描述事物,统计学是十分有效的,有时甚至是必要的工具。在确定两个事物是否存在一定关联时,统计学同样重要。正如你所猜想的那样,确定一种关联是否存在甚至比准确描述事物更困难。

你需要分别正确描述类型1和类型2,然后分析类型1伴随类型2出现的概率是怎样的,反之亦然。如果是连续变量,分析就会更复杂。我们需要辨别类型1中的较大样本值是否与类型2中的较大样本值存在关联。当我们对关联性进行抽象描述时,很有可能在评估变量的关联程度高低时出现大问题。事实上,我们在探索共变(或相关性)时的确出现了严重的问题,我们估计的结果可能会大错特错。

相关性

请看下面的图表,病状X与疾病A有关联吗?换句话说,是否能根据病状X诊断病人患有疾病A?

疾病A与病状X的关联

如何解读上表呢?在一群人中,有20人患有疾病A,同时具有病状X;有80人患有疾病A,但没有病状X;10人未患疾病A,但有症状X;40人既无疾病A,也无症状X。乍看之下,这似乎是对于共变现象最简单的观察了。数据呈现出两分的状态(非此即彼)。你不必搜集信息,或者对不同数据进行编码、对其分别赋值,甚至不必刻意记住任何数据。你不能有任何先入为主的成见,用以判断不同的数据结构。数据的综合分析已经做好了,呈现在你面前。那么,人们如何应对这个最基本的共变数据分析任务呢?

事实上,人们表现得相当差劲。

人们普遍会犯的一个错误是,只依赖“是疾病A/存在病状X”的那一格中的数据。“是的,这种病状和这种疾病有关系。有些具有病状X的人患了疾病A。”这种认知倾向是确认偏误的一个例子,即人倾向于寻找可以证实自己的假想的证据,而不寻找会否定自己假想的证据。

另一些人看到这张表格时会关注两个单元格。其中一部分人会认为病症X与疾病A有关联,“因为在具有病状X的人中,患有疾病A的人比未患有该病的人多”。另一部分人则认为两者没有关联,“因为在患有疾病A的人中,没有症状X的人比有该症状的人多”。

如果没有学习过统计学知识,很少有人能意识到要回答哪怕是关于事物相关性的简单问题也要对四个单元格进行综合分析。

你需要计算出患疾病A且有症状X的人数与患疾病A但没有症状X的人数的比值。而后,你还需要计算出没有患疾病A但有症状X的人数与既没有疾病A也无症状X的人数的比值。因为这两个比值是相同的,你明白了症状X与疾病A有无关系的概率大体相同。

你可能会对一个事实感到震惊,即大部分人,包括那些每日和疾病治疗打交道的医生、护士,常常也会在面对上表的时候做出错误的分析。比如,你可以向他们展示一张表格,里面显示了患疾病B、接受疗法Y而痊愈的人数,患疾病B、接受疗法Y却没有痊愈的人数,患疾病B、未接受疗法Y而痊愈的人数,以及患疾病B、未接受疗法Y而没有痊愈的人数。医生们有时可能会认为是某种特定疗法治愈了病人,因为大部分接受了该疗法的病人的病情好转了。实际上,如果不知道未接受某种特定疗法而好转的人数与未接受某种特定疗法且未好转的人数之比,那么得出的任何结论都是不准确的。顺便提一句,类似上表的表格有时被称作“2×2表格”,有时被称作“四重表”。

有一种简洁精巧的用以测量概率的统计方法叫作卡方检验,它只通过两个分类变量的差别就足以反映出其是否存在真正的相关性。如果两个分类变量的差别在统计学意义上具有显著性,那么我们认为两者的相关性为真。

通常我们用以判断“相关的显著性”的标准是,检验(卡方检验或其他统计学检验)是否能显示出关联程度发生的概率为在100次中发生5次。如果的确如此,我们称其显著性为0.05。显著性检验不仅可应用于两分的数据(非此即彼),也可用于连续的数据。

当变量呈连续分布之态时,我们想知道每个变量彼此之间的相关性有多高,此时我们会用到的统计学工具是“相关性”。两个明显有关联的变量是高度和重量。当然,它们之间的关联并不完美,因为我们会想到许多例子,像是一些矮却更重或高却更轻的人。

应用一系列不同的统计学工具可以让我们明白,两个变量之间的相关性究竟有多高。一个经常被用于检验连续变量相关性的统计工具是皮尔逊积矩相关系数。零相关性意味着两个变量之间没有一点儿关联。相关系数为+1表示两个变量呈完全正相关。当变量1的值上升,则变量2的值也会上升相应的程度。相关系数为–1表示两个变量呈完全负相关。

利用散点图,下图从视觉上展示出一个特定的相关性有多强。图中的每一张图都被称作散点图,因为它们展示出各点偏离“直线,即完全相关”的程度。

散点图和相关性

若相关性的值达到0.3,视觉上几乎无法辨别,但是在实际中有着重大意义。若相关性为0.3,我们就能从一个人的智商情况预测其收入,能从学生大学的课业成绩预测其在研究生院的表现。同样程度的相关性也可以帮我们从一个人体重过轻、达到平均水平或超重来预测其患有早期心血管疾病的可能性。

相关性达到0.3真的很重要,这并非开玩笑:它意味着如果某人在变量A上的排位是前84%(高于均值一个标准差),那么这个人在变量B上的表现会是前63%(高于均值0.3个标准差)。这是一个对变量B的相当有含金量的预估了,比你不知道任何关于变量A的信息的情况要好很多。如果你什么都不知道,那就只能猜测每个人的排位都是50%,即变量B分布的均值。这很容易帮你判断你的生意究竟会做大,还是会破产。

相关性为0.5可以反映一个人在普通工作上体现出的智商与表现之间的相关程度。(对于难度更大的工作,相关性更高;对于难度较低的工作,则相关性更低。)

相关性为0.7可以反映出人身高和体重之间的联系——虽然很有说服力但依然不甚完美。相关性为0.8可以反映出以下两种变量的联系程度:你在今年SAT考试数学部分的得分与下一年在同样部分的得分。这种联系程度很高,但就平均情况而言,在两个分数之间还是会有比较大的浮动空间。

相关性并不能建立起因果联系

相关系数是进行因果关系分析过程中的一个步骤。如果变量A与变量B之间不存在相关性,那在两者之间(可能)不存在因果关系。(一种例外的情况是,如果存在第三个变量C,它促使变量A和变量B之间产生了相关性,而变量A与变量B之间是存在因果关系的。)如果变量A与变量B之间存在相关性,这并不能说明变量A一定导致了变量B。可能是A导致了B,也可能是B导致了A,而联系也可能是由A和B都与某个第三种变量C有联系而产生的,其实在A与B之间没有丝毫的因果关系。

几乎每个达到高中毕业水平的人都能在思维上认可以上论断。然而,某种特定相关性总是伴随着我们假想中的因果关系出现,以至我们心照不宣地接受了相关性意味着因果联系的观点。我们是如此善于制造因果假设,以至于这种做法几乎成了自发的习惯,我们总是控制不住自己去做因果推断。如果我告诉你吃了更多巧克力的人脸上有更多的粉刺,那么你很难不去揣测,可能是吃巧克力引起了粉刺。(实际上并不是这样。)如果我告诉你,那些精心准备婚礼的夫妇经历了更长久的婚姻,那么你很自然便会推测,怎样精心准备的婚礼可以造就更长久的婚姻。事实上,一份著名报纸最近刊登的一篇文章报道了两者的相关性,并推测了严肃的婚礼准备工作带来更长久婚姻关系的原因。然而,如果你深入思考这种相关性,你会意识到精心的婚礼准备并不是一种随机出现的情况,能精心准备婚礼的人更可能有更多的朋友,夫妇两人有更多的相处时间、有更多的钱,或者其他一些更优越的条件。拥有这些东西中的任何一种,或者拥有全部这些条件,那么必然会让婚姻更长久。从这张复杂的网中抽出一个事实,并将它当作一种原因,其实是没有太大意义的。

请看一看工具箱1(见下方灰底方框),其中提到的所有联系都是真实存在的。你会看到,有些因果链看起来似乎是高度可信的,而有些则高度可疑。无论你认为这些因果链可信与否,都请看看你是否能给出下面几种类型的解释:A导致B;B导致A;有一个因素和A与B都相关,且是导致A和B的原因,但A和B之间不存在因果链。随后,请在工具箱2里寻找答案。

工具箱1 思考联系:下述情况中存在什么样的因果关系?

1.《时代》杂志报道,一些家长努力控制自己孩子的饭量,这一行为导致这些孩子超重。如果家里有超重孩子的父母不再控制孩子的饭量,那么这些孩子的体重能减轻吗?

2.国民智商平均得分更高的国家有更多的财富(以国内生产总值为准)。国民更聪明会让一个国家更富裕吗?

3.去教堂参加宗教活动的人比不去教堂的人的道德素质低。这是否意味着信仰上帝可以让人活得更久?

4.养狗的人感到抑郁的情况比其他人少。如果你把一条狗送给一个情绪低落的人,那么他会开心起来吗?

5.禁止进行性教育的州的谋杀率较高。是因为这种“谈性色变”的状况引发了袭击行为吗?如果你为那些州的学生提供更多的性教育方面的知识,那么谋杀率会下降吗?

6.聪明的男人的精子质量更高——更多的精子,更有活力的精子。这是否意味着男人可以通过念大学而变得更聪明,进而提高其精子的质量?

7.吸食了大麻的人更有可能吸食可卡因。那么,是吸食大麻引起了吸食可卡因的行为吗?

8.在20世纪50年代,小儿麻痹症仍是一种棘手难治的疾病。当时,食用冰激凌和患小儿麻痹症之间几乎存在一种正相关关系。那么为了民众身体健康而禁止售卖冰激凌是一种明智的举措吗?

工具箱2 有关工具箱1中的各类联系的参考答案

1.如果孩子超重,父母的确可能会试图控制其饭量。如果是这样,那么因果走向就与《时代》杂志的推测是相反的。父母控制孩子的饭量是不会让孩子变得肥胖的。事实是如果孩子变得肥胖了,父母会去控制孩子的饭量。也有一种情况可能是,成员关系不和睦的家庭中有控制欲强的父母,而孩子更可能会超重,但是在父母控制孩子饭量的强势行为和孩子的体重之间不存在因果联系。

2.情况可能是更富裕的国家拥有更完备的教育体系,因此人们会有更高的智商测试分数。在这种情形下,其实是国家富裕带来了人民综合素质的提升,而不是反向的。也有可能存在第三种因素,比如国民的身体健康,它影响了那两个变量。(这三者之间的因果联系是真实的,但却是偶然性的。)

3.情况可能是,更健康的人会参与更多的各种社会活动,包括去教堂。如果是这样,那么因果链条就与下述推断相反:人们去教堂的一个原因是他们身体健康,但是去教堂并不能让他们更健康。或者还有一种情况是,参与社会活动的兴趣(比如说去教堂)会让人们参与更多的社会活动,身体也更健康。

4.情况可能是,情绪低落的人更不可能去做一些有趣的事,比如买一只宠物。如果是这样,则因果链条就与下述推断相反:郁闷使得你不可能弄来一只宠物。(实际上,把一只宠物给一个伤心的人会帮他调整心情,因此宠物确实会对你的精神健康有帮助,只是这两者之间的关联性不能证明这一点。)

5.情况可能是,更贫穷的州会有更高的谋杀率,更穷的州更不会允许对人们开展性教育。的确,两者都是事实。因此,在性教育与谋杀率之间可能不存在任何因果联系。事实上,是贫穷、较低的教育水平或是其他一些因素与这两者建立了因果链。

6.情况可能是,身体更健康使得人们更聪明,精子质量更好。或是其他一些与聪明和精子质量相关的因素,比如吸毒或酗酒。因此,在聪明和精子之间可能不存在因果联系。

7.情况可能是,吸食其他任何一种毒品的人有更强烈的意愿,因此更容易出现一些违反法律的行为。吸食大麻不一定引发吸食可卡因,反之亦然。有可能是第三种因素引发了上述两种行为。

8.吃冰激凌和患小儿麻痹症在20世纪50年代有高度关联是因为该病症容易在泳池中传播。而在天气热起来时,人们会更常吃冰激凌,更常去游泳。

虚假相关

以一种系统性的方法搜集数据,随后对其进行计算以得出两个变量之间的相关性究竟有多强,这是十分重要的,无须赘言。只要生活在这个世界上,感知周围的事物,我们就很容易无可救药地对两件事进行错误联系。虚假相关是我们面对的一种实实在在的风险。

如果你认为两个变量看上去存在正相关关系(有更多的A,便有更多的B),那么你的这种因果式的视角就很可能让你确信自己是正确的。这种情况不仅经常发生在两个变量其实并没有正相关关系的时候,甚至会发生在两个变量实际上呈负相关关系的时候。注意并记住那些可以支持你的假设的例子,而忽视那些反驳你的假设的例子是确认偏误的又一个例证。

相反,如果一种联系看起来不太可信,你甚至都不会去想存在这种联系,哪怕那种联系实际上很强。心理学家曾经把鸽子放入一个带有自动投食器的装置中,在地板上则有一个能够亮起来的圆盘。如果圆盘亮了,而鸽子并没有啄食,则投食器就会投出一粒食物。如果鸽子去啄食了,投食器则不会投出食物。一只鸽子会在它明白“不在亮起来的圆盘上啄食就会有食物”之前就饿死了。鸽子们没有发现那种看似合理的联系,即不去啄食可能会得到食物。

人其实也像鸽子一样,很难在分析事情时克服自身的一些预设或成见。

临床心理学家利用罗夏墨迹测验来对病人进行测验,观察病人说出其看到墨迹后联想到的东西,再将这些反应进行符号化的记录。一张卡片上可能记录了一个病人:第一,在墨迹中看到了生殖器的形状;第二,有性适应方面的问题。在分析了整个测试后,心理学家很可能会报告说,那些在墨迹中看到了生殖器形状的病人会有性适应方面的问题,即便是相应的数据很难表明这类病人其实较少会有性适应的问题。出现这种情况只是因为性适应的问题看上去太有可能和看到生殖器的情形相互关联了,那种正相关的论断明显地摆在了我们眼前。

你告诉心理学家们,他们错了,那一系列实验表明看到生殖器形状和有性适应问题之间呈负相关关系,即看见生殖器形状的病人实际上更少有性适应的问题;那些心理学家可能会嘲笑你,并告诉你,在他们的临床实验中,有性适应问题的病人就是那些更可能在罗夏墨迹测验中看到生殖器形状的人。不,不是这样的。当你去搜集真正的病人数据时,你会发现两者并无联系。

实际上,没有哪种对罗夏墨迹卡片的反应可以告诉你有关一个人的任何信息。在我们花费了成千上万个小时和上百万美元在这种测试上之前,甚至都没有人认真思考人们的反应和其病状之间是否真的存在联系。在接下来的几十年中,那种虚假的联系被建立起来并不断地被检验,其实浪费了我们大量的时间和金钱。

我无意批评这些心理学家和精神病学家。本科生也在犯和这些临床医生们同样的错误,利用罗夏墨迹测验进行虚假关联,比如将看到生殖器形状同性问题相联系,看到外观滑稽的眼睛便与偏执狂相联系,看到武器便同敌意相联系。

这些发现都表明,如果一个人(或是其他生物体)准备好看到一种特定联系,那么这种联系就极有可能被看到,即便事后证明它根本不存在。如果你潜意识中不想看到这种联系,那么就可能看不到,即便它的确存在。猫会学着把一根线从一个盒子中拉出来,但它们不会学到舔拭自身会让它们从盒子中出来。如果扬声器的声响从右边发出,狗会向右走而非向左走去获取食物。然而,当高声代表食物在右边而低声代表食物在左边时,狗就很难明白到底该去哪边取食。这更可能是因为空间线索与空间事件有关,而非声音线索与空间事件有关。

我们的老朋友“典型性启发法”促生了无数的“有准备的联系”。生殖器总是让人联想到性,眼睛总是代表着怀疑,武器与敌意相关。“可触及性启发法”同样容易让我们产生“有准备的联系”。电影和卡通片总是在表示怀疑的场景中展现那些滑稽的眼睛(眯起来的或骨碌碌转动的等)。

如果一个人既不期待也不抵触看到一种关联,那么会发生什么呢?

比如说,如果一个人听到一群人先说了他们名字的首字母,再唱出了一个音符,接着他被问到,那个字母在字母表中的位置和音符的音长是否有关联,此时这个人会怎样作答呢?

在人们确切地察觉之前,这种武断组合起来的事件之间的联系性会有多高呢?

结果是,这两者之间的相关性达到了0.6,比第140页图中的0.5的相关性高出了一点儿。这是当数据突然间出现在人们面前,而人们尽其所能分析事件联系的结果。在实际生活中,这意味着你不能轻信两个变量之间有关联,除非那种联系非常强——比我们日常遇到的大多数真实存在的联系都强。你需要进行系统地分析以得到正确的结果:观察、记录、计算,否则你就会陷入虚假的陷阱。

一个例外

对于上述规则有一个重要的例外,那便是共变现象是很难被准确认识的。当两个事件——甚至是那些被武断联系起来的事件——在相隔很近的时间点发生时,共变是很容易被注意到的。假如你打开了一盏灯,就在这一瞬间之后一只老鼠被电了一下,那么老鼠就会很快明白灯和电击之间的联系。然而,即使是对于这种极富戏剧性的事件,人们也会因为间隔时间拉长而无法有效认识其中的关联。如果超出了几分钟的时限,那么动物,以及人类,都无法发现那种武断配对的事件之间的联系。

信度和效度

许多年前,我的一个朋友和他太太想生一个孩子。经过好几年的努力都没有成功,他们不得不去找生育专家寻求帮助。情况不容乐观。我的朋友的精子数量“太低以至于无法通过正常方式让妻子受孕”。我的朋友问医生,检查的可信度有多高。医生说:“噢,结果十分可信。”医生的意思是:这个检查不会出错——它提供给你了真分数。他使用了“可信”这个词作为表示准确度的一个术语。

信度表示,采用同一个变量或同一类变量对同一对象重复测量时所得结果的一致程度。

以高度作为测量指标的信度(在不同情境下的关联度)几乎为1。在几周时间内分别进行的针对智商的测验的信度大约为0.9。通过两种不同类型的测验来检测智商通常表现出的信度都会高于0.8。两位牙医在信度低于0.8的时候会在一颗牙齿的钙化程度这件事上达成一致。这意味着有可能会偶尔出现史密斯医生要为你补牙而琼斯医生会让你放任自流的情况。这样看来,任何一位牙医做出的诊断不会与其在不同场合的判断完全相关。琼斯医生还可能会在周五时为你补牙,而在周二时不采取任何措施。

精子数量的信度是怎样的呢?任何一种针对精子数量的测试的信度都比较低,因此你在不同测试中得到相同结果的可能性也较低。同时采取不同方式检测精子数量可能得出完全不同的结果。

效度通常也是通过相关性来测量的。效度表明测量结果在多大程度上是研究者希望得到的结果。智商测试在表明小学生的课业分数和智商得分之间的联系程度时有重要的效度,大约是0.5。(实际上,正是希望能预测学生们在课业上的表现,在20世纪初法国心理学家阿尔弗雷德·比奈才创制出了第一份智商测验量表。)

有一点极其重要的准则需要注意,即如果没有信度,就不存在效度。如果一个人对某个变量的判断是不一致的(比如,一个人对变量A在某个场合的判断与其对变量A在另一个场合的判断不存在任何相关性),那么这个人的判断就没有效度,意思是,这个人的这些判断不能有效预测出变量B的情况。

如果用于测量一个给定变量的测试X和测试Y的结果没有达成一致,而且并非意外情况,那么这些测试中最多有一种具有效度。但是,在没有效度的情况下也可能有很高的信度。两个人可能对他们的每一个共同朋友的外向性格都有极其一致的评价,但是这两个人都未能准确预测这些朋友在不同场合会在多大程度上表现出外向性格(可以通过一些客观的外向性标准,比如健谈程度或是心理学家设计的量表)。

笔迹分析据说能够测量出诚实度、勤奋程度、进取心、乐观精神和其他一些品性。的确,任何两份笔迹分析报告都可能在相当程度上达成一致(高信度),但是它们都不能预测任何与个性有关的实际行为(没有效度)。(当然,笔迹分析在一些情况下会十分有用,例如在对一些中枢神经系统疾病进行医学诊断的时候。)

统计性思维的关键:编码

下面我要提一些问题,看看读者对于一些成对的变量之间的相关性有什么样的想法。具体而言,我会问你,假定在一个情景中A比B更关键,那么在另一个情景中A比B更关键的可能性有多大。通过数学公式,你以概率术语给出的答案可以被转换成相关系数。

如果对于下述任何一个问题,你说“50%”,那意味着你认为一个场景中的行为与另一个场景中的行为之间没有任何联系。如果你说“90%”,那你是说两个场景中的行为之间有着极强的联系。下面的第一个问题是有关拼写能力的。如果你认为某人在一个场景中表现出的拼写能力与在另一个场景中的表现无关,那么你会说“50%”。如果你认为两者之间有着极强的联系,你可能会说“90%”。请做出保证:针对以下的每一个问题写下你的答案,或者至少将你的答案大声说出来。

1.如果卡洛斯在四年级第一个月末的拼写测验中的得分高于克莱格,那么卡洛斯在第三个月末的测试中仍取得较高分数的概率有多大?

2.如果朱丽亚在篮球赛季中的前20场比赛里都拿到了比詹妮弗多的分数,那么朱丽亚在接下来的20场比赛中仍拿到较高分数的概率有多大?

3.如果比尔在你第一次遇到他的时候表现得要比鲍勃友好,那么你第二次遇到他时他仍表现得更友好的概率有多大?

4.如果在你眼中,巴布在前20次情形下比贝斯表现得更诚实(是否公平付账,在玩棋盘游戏时是否作弊,是否诚实告知在班级中的分数等),那么在之后的20次场景中巴布仍表现得更诚实的概率有多大?

下表的数据表现了你刚才针对每个问题做出的相关性系数和对应的估计百分比。

从估计百分比到相关系数的转换

这里的数据基于我之前做过的研究。我已经了解了人在两种场合下表现出的拼写能力之间的关系,20次拼写考试平均分数与另20次测试的平均分数间的相关性,某个人在不同场合表现出友好的感觉之间的联系,在20个场合中表现出友好的平均状况与另外20个场合的平均状况的相关性,等等。

我确定你给出的答案符合下列的套路。

1.你的答案表明,你认为在篮球赛中,球员在20场比赛中的表现与另外20场中的表现高度相关,这种相关度高于一场拼写测验分数与另一场拼写测验分数之间的联系。

2.你的答案表明,你认为在两个场合中表现出的友好程度高度相关,不过这种相关和20个场合中的诚实度与另外20个场合中的诚实度之间的相关性同样高。

3.你的答案还表明,人的品性在不同场景中表现出的一致性要高于能力上的一致性。

以上描述是从我和齐瓦·孔达所做的实验中的大学生参与者那里得来的。

请看下图中的数据,你可以发现人们对于反映了能力(从拼写测试和篮球比赛中得到的平均数据)的行为的推测更接近事实。人在两个不同场合中的行为(拼写或是在篮球比赛中得分)有一定相关性,大致是0.5。人们推测出来的关于那种关联的重要性在金钱问题上也成立。

人们基于能力测验(拼写和打篮球)和品性测试(友好和诚实)得出的少量数据和大量数据而做出的相关性推测。

人们同样认识到了大数定律对相关性的重要影响。如果你看一下许多行为的综合得分情况,并将分数与另一些行为的得分情况相联系,则相关性会更高。人们意识不到一系列行为的相关性究竟有多高,但是能明白可以从前20次行为推断随后的20次行为,且这种推断的可靠性比从一次行为推断另一次行为要高。

对比一下推测与能力有关的行为的准确性和推测与品性有关的行为的不准确性。人们认为人在不同场合中表现出诚实的相关性与不同情境中表现出友好态度的相关性都达到了0.8的系数!这其实是极其错误的。不同场合中人表现出的某种品性间的相关系数通常是0.1或更低,几乎不会超过0.3。这里所犯的错误是很严重的,而整个推理过程都充满了日常生活中的谬误(前述章节都讨论过)。我们以为自己通过观察人们在某个单一情境中的行为就能洞察其品性。犯这种错误的部分原因是基本归因谬误,我们也没能认识到大数定律同样也适用于对人所具有的品性的分析。我们总以为能从很小的样本中得到许多信息,一方面是因为我们倾向于低估场景中的环境因素,另一方面是因为我们以为凭借一种情况就能得到充分的证据以推断另一种情况,即使两者大相径庭。此外,我们还忽视了不断增加的样本量对整体情况的影响。如果你基于相当数量的场景观察某个人与品性相关的行为,并将其在20个场景中的总体表现与在另外20个场景中的总体表现对比,则的确会有很高的相关性。问题在于,人们误以为这种针对品性行为的大数定律对于小样本量的行为也成立。

为什么在以单一场景测量能力和品性时所得到的结果的准确性有如此大的差异呢?为什么人们认识到了大数定律在准确测量能力相关行为的重要性,却一再无视其在准确测量品性相关行为的关键作用呢?

秘密在于编码。对于许多种能力我们都知道可以用什么单位来衡量,并且能为它们赋值:拼写正确单词的比例;罚球的命中率。然而,评判友好的合适单位是什么呢?每分钟微笑的次数吗?每次社交过程中“友好氛围”出现的次数吗?我们如何比较人们在周六晚上的派对上表达友好的方式与其在周一下午的委员会会议上释放善意的方式?人们在不同情境下的行为方式是如此不同,以至在A场合中表现友好的方式并不能作为B场合中表现友好的标志。而找出场合A中所有表现友好的标志同样很困难,甚至是不可能的。即使能穷尽所有可能,那我们也无法将A场合中这数量众多的标志与同样多如牛毛的B场合中的标志做比较。

那么,如何才能正确推测与品性相关的行为呢?我们不必找到所谓正确的测量品性行为的单位,也不必穷尽所有表现品性的方式。心理学家通过研究来解决,而如果我们要做这种测量,那么不必对某一个人提及具体原因,否则他们会觉得我们疯了。(“我要为乔希在开会时以微笑表示友好的行为打18分,这是通过他嘴角上扬的次数乘以每次上扬的弧度得出的。你到底是在做什么?”)

最有效地避免对某个人的行为做出错误推断的方式是提醒自己,只有当两个场合的情境完全一致时,才可以凭借这个人在其中一个场合的行为推断他在另一个场合中的行为。即便这样做,你在进行推测时还是要格外小心。

还有一点或许能帮助你,即你要记住,自己在各种情境下并非总能保持一致。我敢保证,在某些场合见到你的人会认为你特别好,而在另一些场合见到你的人则觉得你简直糟透了。并且你也不能责备那些批评你的人,因为他们一定是有依据的。只要记住批评你的人自身也会既受好评又遭抨击。你不太可能在下一个遇见此人的情境(可能与现在这个情境迥异)中以同样的方式再现自己的人格特质。

更通俗一点儿讲,你要能够知道什么能编码,而什么不能。如果你发现遇到的问题中的事件或行为无法即刻进行编码或赋值,那么就试着找一种途径来编码。做这些事纯粹是为了提醒你一个事实,即人容易高估事件或行为的一致性。

关于本章和下一章所讲述的主题,我能告诉你的最好的消息是,尽管我只教了你们在几个很小的领域中运用统计性思维,但是以我多年的研究经验,我可以保证这些少量的例子就足以帮你在相当多的情境(可能看上去和我举的例子不太相似)下进行理性思考,以统计性思维分析问题。

当我教授人们大数定律以解决那些可以通过统计工具进行分析的问题(例如彩票问题、投硬币)时,他们解决那些只会偶尔想到用统计思维解决的问题(例如可以客观数据衡量的能力)的能力提升了。他们解决那些几乎不会用统计思维解决的问题(例如衡量品性)的能力也提升了。而我教授那些可以客观计分的能力的例子和那些更主观、更难计分的例子时也收到了同样的效果。教授人们某类问题的推理方法可以帮助他们提升在另一类问题上的推理能力。

小结

准确评估事物间的关系是极难之事。即便我们已经搜集好了数据,并进行了全面的总结,也很有可能对共变的程度做出错误估计。确认偏误就极易出现:如果一些A导致B,那么我们很可能会认为A与B有关联。然而要判断A与B之间是否真正存在关联,需要利用四重表比较两种比例。

当我们试图评断一些我们没有先验概念的事物的相关性时,我们会对那些本无联系或被武断地联系在一起的事件的相关性做出错误估计,认为其关联一定很强。我们对于共变的观察能力在那些相隔较长时间发生的事件上表现得很糟糕。

我们很容易受虚假相关影响。当我们评判两个看上去可能有联系的事件的相关性,或说我们期待发现两者间的正相关关系时,我们可能会相信一种实际上并不存在的联系。当事件之间的联系不那么可信时,即使实际上存在强相关,我们也可能看不到那种关联。更糟糕的是,我们会颠倒事实,将正相关认作负相关,反之亦然。

典型性启发法潜藏在我们的许多关于相关性认识的先验假设中。如果A在某种程度上与B相似,我们就可能看到两者间的关联。可触及性启发法也会发生作用。如果那些A与B有关联的场景更容易被我们记住,那么我们就会高估两者之间联系的紧密程度。

相关性并不能建立起因果联系,但如果存在一种貌似可信的原因解释了A导致B,那么我们很容易推测那种相关性的确建立起了因果联系。A与B之间存在相关性可能是由于A引发了B,或B引发了A,或是第三种因素引发了A和B。我们常常忽略这其中的多种可能性。这里的一部分原因是,我们无法认识到用因果关系的术语“解释”相关性是多么容易。

信度是指一个样本在不同情境中或是以不同方式测量时得分相同的程度。效度是指一个测量工具能够准确测出所需测量的事物的程度。对于某一给定的测量工具,其可能具有完美的信度,却没有效度。两位占星师在“双鱼座的人比双子座的人更外向”这个问题上的认可度一致,然而这种说法显然没有效度。

一件事情越是能够通过编码来分析,我们对其的相关性分析就越准确。对于那些易于编码的事情,比如一些以能力高低而决定之事,我们对于两个场景的相关性分析就会十分准确。我们还认识到当分析一些与能力有关的事情时,综合许多场景的平均状况推测另一些场景的平均状况是更好的选择,这比从单一场景推断另一单一场景要更可信。即便是对于与能力有关的行为,我们还是没能充分意识到,从单一场景推断升级成从多个场景的平均状况推断能提高预测的准确性。我们推断一些难以编码的事件(例如与人的品性相关)之间存在强相关性,而实际上那种关联并不存在。我们也比较少或是没有意识到,基于大量观察的预测的准确性要高于单一观察。

当我们从人们过去的(与品性相关的)行为预测其未来的此类行为时,我们需要格外当心和谨慎,除非我们搜集的样本规模足够大且我们得到了多种情境下的事实。意识到有一些特定类型的行为是难以编码的,可以让我们保持警惕,即我们对这类行为的推断很可能有误。时刻以基本归因谬误的概念警示我们自身,我们便能意识到可能会犯笼统概括的错误。