一个评估工具的潜在价值部分地由其心理测量学特征决定,这些特征影响我们对测验结果的自信程度。比如,了解评估工具在测量想测量的特征或概念上做得有多好是非常重要的。举例说,一个测量抑郁的量表实际测量抑郁症状有多好?一个工具的心理测量学特征包括标准化、信度和效度。
1.标准化
为了理解临床评估的结果,得分必须是在一定的背景下。回想一下刚才提到的发烧。为什么104℉的温度使人担心?因为它远远高于人身体的正常的98.6℉的体温。因此,你会用正常的体温去衡量你是否发烧了、是否需要用一些药。同样,理解心理评估的结果需要将其放到背景里。一个特殊的得分是否意味着问题、它的严重性或随时间的改善的存在?标准的评估得分应包括与常模或与自己参照的比较(或两者都有)。常模(normative)比较指将一个人的得分与能代表总体人群(包括年龄、性别、种族、教育和地理区域等特点)的样本得分比较或者是和与被评估患者一样的亚群体得分相比较。如果我们测量100个成年人的体温,平均的温度(平均数)会是98.6℉。这是人体温度常模。如果一个人的得分与群体常模差太多,我们就能假定有问题存在。为了判断一个得分是否与群体常模差太多,我们会用到一个叫做标准差(standard deviation,SD)的统计学概念(见图3-2)。标准差能显示某一得分与平均值差多远。根据统计学原理,如果一个得分距离平均值超过两个标准差,就意味着该得分与正常值有着显著差异。在将得分与常模群体比较时,不但要考虑患者的特性,还要考虑群体的特性。
图 3-2 正态曲线数字显示了标准差(SD)。一个分数如果偏离平均数(中心点,0)超出两个标准差便可以被认为是与常模有显著差异的。如果波林在记忆测试中的得分低于中年人的平均水平,但是跟她同龄和受到同等教育的人的得分是一样的,我们就不必担心她存在认知损害。然而,如果,她的得分远远低于跟她同龄和受到同等教育的人的得分,那我们就能得出结论,她存在严重的认知困难。
自我参照比较(self-referent comparisons)是指对个体自身治疗前后对某心理学工具的反应的比较,这种方法最常被用于检验症状的进程。如前面发烧的例子,不是每个人都有标准的98.6℉的体温。一些人的正常体温可能是99.2℉。在自我参照比较中,我们将104℉的体温和正常体温99.2℉进行比较。
如果波林在认知损害测试上的得分远远低于她6个月之前的水平,我们就该担心这些症状有潜在的恶化可能。自我参照比较也用于疗效评估。在治疗上,我们当然希望看到自我参照比较发现症状的改善和生活质量的提高。
2.信度
评估工具的信度(reliability)体现在其稳定性上,或者每次用评估工具施测时所得结果的一致性程度(Compas&Gotlib,2002)。测试你体温的温度计一般都是十分可靠的:因为它的读数不管是在你这次测完体温后还是过10分钟再测时都是一样的。心理测试也应如此可靠。如果一个测试不能每次产生相同结果,则这个测试是毫无作用的。信度有很多种评估方法。重测信度(testretest reliability)强调了测验分数在不同时间的测试中的一致性。要评估重测信度,我们在一个时间段对同一组被试做两次测试,比如间隔两周或者一个月。然后计算两组数据的相关系数以评估其一致性(见第2章)。相关系数达到0.8或以上说明该评估手段有很高的信度。
另一种信度的重要评测方法是依靠医生判断的评定者间一致性(interrater agreement)。当医生会见患者时,他们必须确定这些人的症状是否足够严重到需要下诊断或给予治疗,并且不是每个人都会用相同的方式来判断这些行为。在这些案例中,我们想要知道不同的医生对于症状的严重程度的判断是否一致(即评定应更多地反映被会见的患者的状况而不是会见患者的医生的观点)。要评估评定者间一致性,需要两位医生来对同样的患者进行同样的会见。
3.效度
一个好的测验不仅要有信度还要有效度。效度(validity)指一个测验实际能测出其预测内容的程度。大多数我们在心理学上要测定的内容是假设的或无形的概念(如自尊、情绪、智力)。这些工具的效度可以告诉我们在多大程度上评估了这些复杂的内容。结构效度反映了测试在多大程度上准确地评估了某一特定概念而不是其他相关概念。比如一个有效测量羞怯的测试应该反映羞怯概念的各种成分(担心别人是否喜欢自己,避开需要交际活动的情境,当想要对人显示友好时会出汗和脸红)但不应该反映其他概念如恐惧(比如对蛇或针的恐惧)或抑郁的症状,即使这些症状常伴随羞怯出现。
效标效度是效度的另一种形式。它反映的是一个测验(可能是一个新开发出来的学业成就测验)与评估同样内容的测验(已成熟的测验)的相关程度。同时效度也是效标效度的一种类型,反映的是同时给出的两种测试之间的关系,比如学习能力倾向测验(Scholastic Aptitude Test,SAT)和美国大学考试项目(American College Testing Program,ACT)。预测效度反映的是一个测试能够预测将来行为表现的能力,比如SAT预测研究生入学考试成绩的能力。再如一个好的抑郁测验应该与医生在同一时间对其抑郁的诊断呈现高相关(有很好的同时效度)。一个好的智力测验也应该与被测者之后的学术表现呈现高相关(预测效度)。
另一个与效度有关的问题是心理学家的预测或在评估程序最后所得结论的准确性。毕竟评估数据是收集来的,医生会被要求做出判断,比如这个人是否有严重抑郁?一个性犯罪者会再次犯罪吗?此时对于这个人的最好治疗方法是什么?这个学生能否很好地适应这种课程体系?回答这些问题是困难的,但是我们可以从很多健康与行为研究的结果(Grove et al.,2000)中知道,医生如果将他们的结论建立在统计学的基础上而不是建立在临床预测策略的基础上,那么他们会做出更准确的判断。在统计预测中,医生对某人做出的判断是建立在从庞大人群所获数据的基础上的。例如,保险公司在决定如何标价他们的保险项目时会参考大型的研究,这些研究提供死亡可能性或基于如年龄、吸烟及酒精等已确认的死亡风险因素造成的意外死亡可能性(Compas&Gotlib,2002)。存在风险因素越多的人将会为他们的保险支付更多的钱。而临床预测则依赖于以医生判断为基础的资料的整合。临床预测的一个例子就是:研究生新生录取时大多是以主考官对申请人在整个面试过程中一系列表现的印象为标准,而不是以一个好的研究者应有的素质为标准。一般来说,当分别使用这两种预测策略的时候,建立在同一患者资料基础上的预测结果可能会有非常大的不同(Grove,2005)。
心理评估领域的领军人物保罗·米尔(Paul Meehl),早在1954年就有过关于统计预测远比医生判断要准确得多的主张。超过136项研究的资料都支持这个结论(Grove et al.,2000)。当所得资料可被用于预测谁将受益于什么样的治疗时,统计预测即被用于以证据为基础的医疗实践中。但当相关统计数据不存在以及需要发展新假设时,人们就使用临床预测。在使用本章临床访谈部分所讨论的结构式访谈时,医生判断也会影响结果。