《寻觅宇宙中的智能生命》(The Search for Intelligent Life in the Universe)是喜剧作家莉莉·汤姆琳(Lily Tomlin)所创作的一幕舞台剧的名字,这是一部探讨人类愚蠢和弱点的喜剧。汤姆琳的题目妙用了“智能”一词的两个含义:能力倾向和理性的、像人类一样的思维。智能的第一个含义指的是智商测试所衡量的东西,第二个含义则是我这里要讲述的。
我们定义智能或许不大容易,但我们只要见到它就能识别出来。一个思维实验能够澄清这个概念。假定有一个外星人,它在任何一方面都与我们不一样,它怎样表现才会让我们觉得它拥有智能呢?当然,科幻小说作家把这个问题作为他们工作的一部分。还有更好的权威来回答这个问题吗?当作家戴维·亚历山大·史密斯(David Alexander Smith)被一个采访者问及“怎样就是一个好的外星人”这个问题时,他对智能特点的归纳是我所见过的最好的一个回答:
首先,外星人需要对环境做出智能的反应,但这种智能反应是人类所不能理解的。也就是说,当观察到外星人的行为时,你会说:“我不理解这个外星人做决策所依据的规则,但这个外星人的行为一定是在一套规则指导下的,而且是理性的。”其次,它们看重、在乎一些事情。它们想要什么东西,并且在面临阻碍时仍去追求。
根据某套规则做出理性的决策,意味着将决策建立在一些事实基础之上——与现实或合理推理符合。一个外星人如果总是撞到树上或跌落悬崖,或者它本来是想去砍一棵树,但事实上却对着一块石头或空地乱劈乱砍,那它似乎不大像具有智能。如果有个外星人看到3个天敌进入一个洞穴,接着其中两个离去了,这时它就认为洞穴已空并走进去,那它也称不上智能。
这些规则必须被用来服务于第二条标准,即想要某些东西并在面临困难时仍去追求。如果我们无法确定一个生物想要什么,我们就不会理解它在何时会做些什么事情去获取它想要的东西。如果我们能获知所有信息的话,或许这个生物就想要撞在树上或是拿着斧子凿大石头,而且非常出色地完成了它想要做的也未可知。事实上,如果不清楚一个生物的目标,智能这个观点本身就是毫无意义的。狗尿苔应该被授予一个天才奖,奖励它以妙到不差分毫的精准和准确无误的可靠性,纹丝不动地端坐在它端坐的地方。大概所有人都会同意认知科学家赞侬·派勒山恩(Zenon Pylyshyn)的观点,他认为石头比猫要聪明,因为石头在你踢它的时候知道走开。
这个生物还要能够运用理性的规则,根据需要克服的障碍,采取不同的方式以达到目的,正如威廉·詹姆斯(William James)所言:
罗密欧想念朱丽叶就像铁屑想要磁石;如果没有障碍阻拦,他会沿着一条笔直的线冲向她。但如果他们之间砌了一道墙,罗密欧与朱丽叶就不会像隔了张卡片的磁石和铁屑一样,傻瓜似的各自把脸贴在墙上。罗密欧会很快找到一条迂回之路,翻墙而过或是采取其他方式,以便能够直接亲吻朱丽叶的嘴唇。对于铁屑而言,道路是固定的,是否达到目的有赖机缘。对于情人而言,目的是固定不变的,道路则可以做无限多种调整。
因此,智能是面对阻碍,根据理性规则(或遵循事实)做出决策,从而达到目标的能力。计算机科学家阿伦·纽威尔和赫伯特·西蒙进一步完善这个观点,指出智能的组成包括:确定目标;评估当前情况并判断与目标的差距;应用一系列操作以减少这些差距。根据这个定义,我们或许略感宽慰,因为不仅外星人有智能,我们人类也有。我们有欲望,我们用信念来追寻以满足欲望,这些信念在正常情况下,至少近似于或在概率上是正确的。
用信念和欲望对智能做出解释并非必然得出的结论。行为学派古老的刺激反应理论认为,信念和欲望与行为无关——他们认为,信念和欲望同邪法巫术一样不科学。人类和动物对于刺激做出反应,或是因为之前做出这种反应是由一个与此刺激相随的诱因激发的(例如,听到伴随喂食的铃声就分泌唾液),或是因为随刺激出现的奖励(例如,按下小杆就会送来一团食物)。正如著名的行为学派代表人物B.F.斯金纳(B.F.Skinner)所说:“问题不在于机器是否思考,而在于人是否去做。”
当然,男人和女人们是在思考的,刺激-反应理论最终被证明是错误的。举个例子:莎莉为什么跑出大楼?因为她认为大楼着火了,她不想死。她的逃跑不是对某种刺激所做出的可预测反应,无论这种刺激是否能用物理或化学语言客观描述。也许她看到了冒烟才离开,但也许她离开是因为她接到电话,告诉她大楼着火了,或是看到了救火车的到来,或是听到了防火警报。但这些刺激也都不足以让她离开。如果她知道,烟是来自烤面包机上的松饼,或者电话是一个朋友打来开玩笑的,或者是有人不小心误碰了警报开关,或是搞恶作剧故意拉响的,又或是因为电工正在测试警报器,她是不会离开的。物理学家能够测量光、声音和粒子,但他们无法合理预测人的行为。能够预测莎莉的行为并预测得很准确的是,她是否相信她正处于危险中。当然,莎莉的信念和作用于她的刺激有关,但这种关联方式是迂回而间接的,而且还受到她对所处环境周遭世界理解认识的影响。同时莎莉的行为同样取决于她是否想要逃离险境——如果她是一个救火志愿者、企图自杀者或是一个想用自我牺牲来唤起人们对一项事业关注的狂热分子,又或者她的孩子还在楼上的托儿所,那么你可以推断她不会逃跑。
斯金纳自己并没有固执地坚持认为,像波长和形状这样可度量的刺激因素可以预测行为。相反,他凭自己的直觉为刺激物下了定义。他愉快地将“危险”——就像“表扬”“英语”和“美”一样——称为一种刺激因素。这样的好处是可以将他的理论和现实协调一致,但这等于是从诚实的劳工那里偷窃来的好处。我们能够理解“一个仪器对一个红灯或一种噪音做出反应”的含义,我们甚至可以自己制造一个这样的仪器,但人类是宇宙中唯一一种能对危险、表扬、英语和美做出反应的仪器。人类对于像表扬这样形状无定的东西做出反应的能力,是我们想要解决难题的部分内容,而不是对这个难题的部分解决方法。表扬、危险、英语、美以及所有其他我们对之做出反应的事物是以观看者的角度说的,而正是这种角度,才是我们想要解释的。物理学家能够测量的东西与能够导致行为的东西,这两者之间存在差距,所以我们才必须相信人们拥有信念和欲望。
在日常生活中,我们对他人行为的所有预测和解释,都是基于我们认为他们所知道的和我们认为他们所想要的。信念和欲望是直觉心理学的解释工具,而直觉心理学仍旧是迄今最有解释力和最完整的行为科学。要预测绝大多数人类行为,如打开冰箱、登上公共汽车或将手伸进某人的钱包,你并不需要劳神构建一个数学模型、运行神经网络中的计算机模拟程序,或是雇用一个职业心理学家,你只要去问问你奶奶就行了。
这并不是说常识在心理学中就应该比在物理学和天文学中占据更重要的位置,而是常识比任何其他尝试过的替代方法,都更加有力而准确地预测、控制和解释了日常行为。很有可能常识会以某种形式被融入到我们最好的科学理论之中。比如,我给在西海岸的一位老朋友打电话,我们说好两个月之后的某一天晚上7点45分,在芝加哥某个宾馆入口的一个酒吧会面。我预计,他预计,每个认识我们的人都预计,在那天的那个时候我们会见面。我们确实见面了。太令人惊叹了!还有哪些其他领域中,普通人或者科学家能够将距离几千公里的两个物体的运行轨道,以准确到厘米和分钟的精度,提前几个月就预计到呢?而且仅仅是根据时间只有数秒的谈话内容所传递的信息就得出预测?这项预测背后的运算就是直觉心理学:我想要与我朋友会面,他也如此;我们俩都相信对方会在某一时间出现在某一地点;我们知道一系列的交通手段——搭乘航班、乘坐汽车和步行会把我们带到那里。没有任何研究心智或大脑的科学可以做得比这更好了。这并不是说关于信念和欲望的直觉心理学本身就是科学,而是暗示我们,科学心理学需要去解释,像人这样的一坨物质如何能具有了信念和欲望,以及信念和欲望如何做得这么好。
对智能的传统解释是,人的肉体中充满一种非物质实体——灵魂,它通常被想象为某种鬼怪或精灵。但这种理论有一个难以克服的问题:灵魂如何与有形的物质相互作用呢?一个无形的东西怎样对闪光、戳刺和嘟嘟声做出反应,又怎么能让胳膊和腿移动呢?另一个问题是,有海量的证据说明,心智是大脑的活动。现在我们知道,这个曾被认为是非物质的灵魂,可以用小刀把它一分为二,用化学物质改变它的性状,用电来使它开始或停止工作,狠命一吹或缺乏氧气会使它烟消云散。在显微镜底下,大脑显示出令人惊叹的复杂物理结构,这完全可以和心智的丰富程度相匹配。
关于心智的另一个解释是,心智源自一些特别的物质形式。匹诺曹是由葛派特发现的一种神奇木头做的,它具有生命,可以说话、大笑和自己移动。唉,遗憾的是,还没人发现过这种神奇的物质。最初,人们以为这种神奇的物质就是脑组织。达尔文写道,脑“分泌”心智;而哲学家约翰·塞尔(John Searle)认为,脑组织的物理化学特性以某种方式产生了心智,就像乳房组织分泌乳汁,植物组织生成糖一样。但我们不要忘了,在动物王国许多成员的脑组织中都能找到与人脑组织相同种类的膜、细孔和化学物质,更不用说在脑肿瘤和实验室人工培育的组织中了。所有这些神经组织块都有着同样的物理化学性质,但并不能都实现像人一样的智能。当然,人脑组织中的某些东西对智能是必要的,但只考虑物理性质是不够的,就像砖头的物理性质不足以解释建筑,氧化物离子的物理性质不足以解释音乐一样。神经组织构成模式中的某些东西是至关重要的。
智能常被归因于某种能量流或力场。发光蒸汽、辉光、振动、磁场和力线等在灵性主义、伪科学和粗制滥造的科幻小说中都占有显赫位置。格式塔学派试图用脑表层的电磁力场来解释视觉幻象,但这些力场从来都没被找到过。有时,液压模型强调心理压力的积累、爆发或疏散,它是弗洛伊德理论的核心,可以见于许多日常的比喻:如怒气上涌、发泄精力、压力下爆发、大发雷霆、吐露某人的感受、抑制愤怒等。但事实上,即使是最激烈的情绪,也不符合能量(用物理学家的定义)在脑的某些地方集聚和释放这样的观点。在第6章中我将让你理解,大脑实际上并不是根据内部压力来运行的,而是采用相互谈判妥协的策略妥善处理这些压力,就像对待身上绑了炸药的恐怖分子一样。
所有这些观点的一个问题是,即使我们找到了一些凝胶、旋涡、振动或浑一体,它们能够像葛派特的原木一样讲话和调皮捣蛋,或更广义地说,它们能够根据理性规则做出决策,并在面临阻碍时继续追寻目标,我们仍将面对一个难解之谜:它是如何做到这些的。
智能不是来源于一种特殊的精神、物质或者能量,而是来源于一种不同的物质——信息。信息是两个东西之间的一种关联,这种关联是由一种合法的过程产生的(而不是纯粹由于机缘巧合)。我们说,树桩上的年轮包含了这棵树年龄的信息,因为年轮数与树龄相关(树越老,年轮数越多),但这种相关并非巧合,而是由树的生长方式决定的。相关是一个数学和逻辑概念,它不是由相关实体的组成物质来定义的。
信息本身并没有什么特殊的;原因与结果有差异的地方,就是信息出现的地方。特殊的是信息的加工处理。我们可以把包含事物情况信息的物质当作一个符号,它能够“代表”事物的状况。但作为物质,它还能够做其他事情。它是有形的东西,在哪种情况下能做什么要根据其自身的物理和化学规律而定。树的年轮包含树龄的信息,但它们也反射光并吸收颜料。脚印包含着动物移动的信息,但它们也能积水并引起风中的旋涡。
现在我们有一个想法:假设有人打算用一些部件来制造一个机器,而这些部件受某个符号的物理性质所影响。发动某个杠杆、电眼、绊网或磁石的是一个树年轮吸收的颜料、一个脚印积蓄的水、一支粉笔反射的光或一点儿氧化物中的磁载荷。再假设这台机器能够导致另外一堆物质发生某种变化。它能在一片木头上打下新烙印,或者在附近的土上留下新印记,或者蓄充另外一点氧化物。到目前为止,还没什么特殊的事情发生;我所描述的,只是由一个没有明确意向的新机器所完成的一系列物理事件。
现在我们设想特殊的一步:我们试图用原有那片物质所包含的信息模式,来解释新安置的一片物质。比如说,我们来数新烙在木头上的环印,把它们解释为某棵树在某段时间的年轮,尽管它们不是由任何树的生长造成的。然后我们可以说,机器经过精心的设计,使得对这种新印记的解释具有了意义——也就是说,这种新印记包含了世界上某些东西的信息。例如,设想有一台机器,它能扫描树桩上的年轮,为每一个年轮在旁边的一块木板上都烙下一个印记,接着又移向同时砍下的一棵稍小的树的树桩,扫描它的年轮,在那块木板上为小木桩的每个年轮都抹去一个印记。这样,当我们再数木板上的印记时,就知道了在种第二棵树的时候,第一棵树的树龄了。这样,我们就得到了一台理性的机器,能够根据真实前提得出真实结论的机器——而不是因为任何特殊的物质或能量,也不是因为任何部件本身是智能的或理性的。我们所具有的,只是对普通物理事件的一系列精心设计,这些事件之间的首要联系就是对携带信息的物质的一种配置排列。我们的理性机器之所以拥有理性要归功于两种特性,这两种特性共同紧附于一个我们称之为符号的实体中:符号携带着信息,它导致事件的发生。比如,年轮与树龄相关,它们能吸收扫描器的光束。当被导致的事件本身含有信息时,我们将整个系统称为一个信息处理器或计算机。
这整个构想看起来是个无法实现的愿望。怎么保证对任何物件都能设法安排,使之以恰当方式下落、摇摆或发光,而对这种作用效果的解释又合乎情理呢?更准确地讲,合乎情理是依据了我们所感兴趣的某种先前规律或关系;任何一堆东西都能够在事后给出巧妙的解释。
对这些质疑的有力回击来自数学家艾伦·图灵的研究工作。图灵设计出一台假想机器,能够根据机器的内部程序,输入符号和输出符号相应地与海量合理解释中的任意一条相匹配。这台机器由一套装置组成,包括一条划分成许多正方形的带子,一个能在正方形上打印或阅读上面符号并双向移动带子的读写头,一个能指向机器上有限数量刻度的指针和一套机械反射装置。每一次反射都是由被阅读的符号和指针的当前位置所引发的;它在带子上打印出一个符号,移动带子或转移指针。机器所需的带子能得到无限量的供应。这个设计被称为图灵机。
这台简单的机器能用来做什么呢?它能够接收代表一个数或一组数的符号,并打印出代表新数的符号,这些新数是任何能够用一步步的序列运算来解决的数学函数的对应值。序列运算包括加法、乘法、求幂、因式分解,等等——我在用非技术语言来表述图灵发现的重要性,难免会不精确。它能够运用任何有用的逻辑体系规则来从一些真命题推导出另一些真命题。它能够应用任何语法规则来推导出结构正确的句子。图灵机间的等效应,可计算的数学函数、逻辑和语法,令逻辑学家阿隆佐·邱奇(Alonzo Church)做出这样的推测:任何确定能够在一定时间内对某个问题得出解答的,界定清晰的方法或系列步骤(也就是说,任何运算),都能够在图灵机上执行。
这意味着什么呢?这意味着在服从能够被一步步解决的数学方程式的世界中,能够建造一台机器来模拟这个世界,并对之做出预测。以理性思维符合逻辑规则的意义上说,我们能够制造一台机器含有理性思维。以语言能够根据一套语法规则来领会一种语言的意义上说,我们能够制造一台机器产生出语法正确的句子。根据思想包括应用任何一套界定清晰的规则的意义上说,我们能够建造一台机器,它能够在某种意义上进行思考。
图灵证明,理性机器——使用符号的物理特性来制出具有某种意义的新符号的机器——是能够被建造出来的,而且是很容易建造的。计算机科学家约瑟夫·威森鲍姆(Joseph Weizenbaum)曾证明怎样用一个骰子、一些石头和一卷卫生纸就能够造出这样一台来。事实上,人们甚至不需要一个大仓库来装这些机器,一个做加法,另一个做平方根,第三个打印英语句子,等等。一种图灵机被称为通用图灵机,它能够接收任何其他图灵机打印在带子上的描述,随后精确地模仿那台机器。只需设计一台机器就可以做任何一套规则所能做的所有事情。
这意味着人脑就是一台图灵机吗?当然不是。现在没有任何地方使用图灵机,更不要说我们的脑袋中了。图灵机在实践中是没有用的:它们太笨拙,太难设计程序,太大而且太慢。不过这没关系。图灵只是想证明,对小玩意儿做些设计安排,它就能像一台智能符号处理器一样发挥功能。就在图灵机发明之后不久,更为实用的符号处理器就被设计出来了,其中一些成为IBM和Univac的大型机,以及后来的苹果麦金塔和个人电脑。但所有这些其实都和图灵通用机没什么两样。如果我们不考虑大小和速度,它们需要多少内存容量就给它们多少,那么我们就可以将它们的程序设计为,根据相同的输入做出相同的输出。
还有人提出其他一些符号处理器作为人的心智模型。这些模型往往是在商业计算机上进行模拟的,但那只是为了图方便。商业计算机最初的设计是为了模仿假想的心智计算机(创造出计算机科学家所称的虚拟机器),就像Macintosh能够效仿一台个人电脑。只有虚拟心智电脑才应被认真考虑,而不是效仿它的硅芯片。然后,旨在建立某种思考(解决问题,理解句子)模型的程序就在虚拟心智电脑上运行。一种理解人类智能的新方式已经诞生了。
下面我讲一下这样一个模型是如何工作的。现在这个时代,真正的计算机已经复杂得令普通人几乎无法理解,就像心智难以理解一样,所以我们来看一个放慢动作的心智计算的实例还是很有启发作用的。只有这样,我们才能理解简单的仪器是如何用电线连在一起成为一个符号处理器,并展示出真正的智能的。不能稳定运行的图灵机并不是宣传“心智即电脑”理论的好广告,所以我将用一个模型,它至少与我们的心智电脑有些许相似之处。我会展示给你看,它是如何解决一个日常生活中亲属关系问题的。这个问题很复杂,因此当一台机器能够解决时,我们一定会深为所动。
我们把这个模型称为“产出系统”。它去除了商业计算机中最不符合生物性的特征:计算机呆板僵硬地遵循着程序步骤的有序列表。一个产出系统包含一个内存和一组反射装置,反射装置有时被称为“小幽灵(后台程序)”,因为它们是简单的、独立的实体,待在那里就等待着被激活。内存就像一个张贴通知的公告板。每个“小幽灵(后台程序)”都类似一个膝跳反射装置,等待着公告板上的特定通知,并根据通知做出自己的反应。这些“小幽灵(后台程序)”整合在一起构成了一个程序。它们由贴在公告板上的通知触发,然后贴上它们自己的通知,从而又触发其他“小幽灵(后台程序)”,如此往复。内存记忆中的信息逐渐变化,最终对某个给定的输入得出正确的输出。有些“小幽灵(后台程序)”与感觉器官相连,被外部世界的信息而不是内存记忆中的信息所激发。另一些与肢体相连,其反应是移动肢体而不是在内存记忆中贴上更多的信息。
假设,你的长期记忆包含有你近亲属成员和你周边所有人信息的知识,这种知识的内容是一组像“阿历克斯是安德鲁的父亲”这样的陈述。根据心智计算理论,这种信息被内置于符号之中:符号即为一组有形标记,这组标记与上面陈述中所体现的外部世界情境有关。
这些符号不是英语单词和句子,尽管流行的误解认为我们用母语思考。如我在《语言本能》[3]中所揭示的,像英语或日语这样的口头语言中的句子,它们是没耐心的智能生物之间口头沟通使用的。它们非常简洁,把所有听者能够根据情境在心中填补的信息都省略掉了。与此相反,知识盘踞的“思想语言”不会给想象留下任何东西,因为思想语言本身就是想象。用英语做思考工具的另一个问题在于,英语句子经常会有歧义。当连环杀手泰德·邦迪(Ted Bundy)获得一个死刑席位后,报纸头条写道:“Bundy Beats Date with Chair”(邦迪挤上与电椅的约会之旅),我们要思索一下才能理解这句话的意思,因为我们的思想给这串单词赋予两种意思(它还可理解为“邦迪用椅子揍约会对象”)。如果一串英语单词能够对应脑中的两种含义,那脑中的含义就不可能是英语单词串。口头语言中的句子充斥着冠词、介词、性别词缀以及其他语法。它们会有助于将信息从一个脑袋里,通过嘴巴和耳朵这个漫长的通道,传到另一个脑袋里;但在同一个脑袋里,信息是直接通过成捆的神经元来传递的,所以就不需要这些语法了。因此一个知识系统中的陈述不是用英语的句子来展示的,而是用一种更加丰富的思维语言——“心语”(mentalese)中的简洁铭文表示。
在我们的例子中,反映家庭关系的那部分心语分为两种陈述。第一种是“阿历克斯,的父亲,安德鲁”:一个名字,后面跟着直系家庭关系,后面跟着一个名字。第二种是:“阿历克斯,是男的”:一个名字,后面跟着其性别。不要因为我在心语中使用某种语言和句法而被误导。这是为读者您着想,帮助您用母语理解这些符号代表的内容。而对机器而言,使用什么语言仅仅是对标记不同的设置而已。只要我们前后一致地使用某个符号代表某个人(即表示阿历克斯的符号总是表示阿历克斯,而不是任何其他人),并根据一致的规则设置它们(即保留着谁是谁父亲的信息),它们可以是任何标记,也可以以任何方式设置。您可以把这些标记想象成用扫描仪识别的条形码、仅认可一把钥匙的钥匙孔或只符合一种模板的形状。当然,在计算机中,这些标记是硅芯片中的模式储存;在脑中,它们是几组神经元的激活。关键要点是,机器中没有任何东西能像你我那样理解这些标记;机器的某部分会对它们的形状做出反应,并被引发去做些事情,就像口香糖机对硬币的形状和重量做出反应,并释放出一粒口香糖一样。
我将用下面的例子对计算进行揭秘,让你看看这戏法到底是怎么变的。为了讲清楚我对这个戏法的解释——符号既表示一些概念,也在物理上导致某些事情发生——我将一步步解释我们产出系统的活动,并对每件事都描述两次:从概念上讲,强调问题的内容和解决问题的逻辑;从物理上讲,即系统非生物性的感受和做标记的动作。系统是智能的,因为这两种描述对应得非常精确,内容对应标记,逻辑步骤对应动作。
我们把系统保留有关家庭关系铭文的内存记忆称为长时记忆。我们把另一部分用于计算的演算板称为短时记忆。短时记忆的一部分是针对目标区域的,它包含了一系列系统“试图”回答的问题。系统想知道的是Gordie是不是它生物血缘上的叔叔。刚开始时,记忆看上去就像这样:
从概念上讲,我们的目标是找到一个问题的答案,如果它所询问的事实是真的,答案就是肯定的。从物理上讲,系统必须确定目标一栏中末尾有问号的一串标记是否在记忆的某些地方也有与之对应的、完全相同的一串标记。一个“小幽灵(后台程序)”被设计用来回答这些查询式问题,方式是通过扫描目标和长时记忆栏,来寻找相同的标记。当它发现一个匹配标记时,它就把标记打印在问题旁边表示它已经得到肯定答案。为了方便起见,我们就说标记是Yes。
从概念上来讲,系统所面临的挑战是:它并不明确知道谁是谁的叔叔;而知识是隐含于它所知道的其他事情中的。从物理上来讲,同样的挑战是:在长时记忆中没有“的叔叔”这样的标记,而只有像“的亲兄弟姐妹”和“的父母”这样的标记。从概念上讲,我们需要从父母身份和亲兄弟姐妹身份的知识中推导出叔叔身份的知识。从物理上讲,我们需要一个“小幽灵(后台程序)”来打印一个“的叔叔”的铭文,从侧面标有“的亲兄弟姐妹”和“的父母”的铭文中发现相应的印记。从概念上讲,我们需要找到我们的父母是谁,找出他们的亲兄弟姐妹,然后选择男性。从物理上讲,我们需要下面的“小幽灵(后台程序)”,它在目标栏中打印出新的铭文,引发新的内存记忆搜索:
这个“小幽灵(后台程序)”是被目标栏中一个“的叔叔”的铭文所引发的。目标栏里确实有一个这样的铭文,所以“小幽灵(后台程序)”就开始工作了,在这栏里加了一些新的标记:
我们还必须有一个装置,可以是另一些“小幽灵(后台程序)”也可以是这个“小幽灵(后台程序)”内部的其他设备,来解释它的P们和Q们。也就是说,它用一组姓名标签(我、Abel、Gordie,等等)来代替P标签。我隐藏了这些细节是为了让事情简单明了。
新的目标铭文刺激了其他休眠的“小幽灵(后台程序)”开始动作。其中一个(从概念上讲)查找系统的父母,方式是通过(从物理上讲)将所有包含父母名字的铭文复制到短时记忆中(当然,除非铭文已经在短时记忆中了;这个限制条件使“小幽灵(后台程序)”不能像魔法师的徒弟那样,漫不经心地复制个没完没了):
我们的公告板现在看上去就像这样:
既然我们知道了父母,我们就能找到父母的兄弟姐妹。从物理上讲:既然父母的名字被写在短时记忆上,一个“小幽灵(后台程序)”就能激发动作,复制有关父母兄弟姐妹的铭文:
这就是它的结果:
现在的情况是,我们把姑姑和叔叔放在一起考虑。要将叔叔和姑姑分开,我们需要找出男性。从物理上讲,系统需要知道哪些铭文在长时记忆中有对应的部分,旁边标有“是男性”的印记。“小幽灵(后台程序)”是这样检查的:
这个“小幽灵(后台程序)”就最直接地拥有了系统对“叔叔”含义的知识:即一个父母的同胞兄弟。它将叔叔身份的铭文加到了长时记忆中,而不是短时记忆中,因为这个铭文代表着永远正确的一段知识:
从概念上讲,我们刚刚推导出我们询问的有关事实。从机械上讲,我们刚刚在目标栏和长时记忆栏创造了与两个印记都完全对应的、相同的铭文。我最初提到过“小幽灵(后台程序)”可以扫描复制品,它被激发标出印记,表明问题已经解决:
我们刚才完成了什么事情?我们用无生命的口香糖机部件制造了一个近似于心智计算的系统:它推导出一个它之前从未持有的事实陈述。从关于特定父母和兄弟姐妹的信息以及叔叔身份含义的知识,它得出关于叔叔的特定事实观点。这种神奇,再重复一遍,来自对符号的处理加工:对含有表征和因果特性的事物的布置安排,所谓表征和因果特性就是指既包含了关于某事的信息,同时又是一组实体事件链条中的一个环节。这些事件构成了一次运算,因为这个机器就是如此设计的:如果对引发机器的符号的解释是正确的陈述,那么对机器所创造的符号的解释也是正确的陈述。在这个意义上,心智计算理论这种假说认为,智能即计算。
“这个意义”很广,它避开了其他定义中多余的东西。例如,我们无须假设:计算是由一系列离散的步骤组成的,符号必须完全呈现出来或者完全没有(而不是更强或更弱,更活跃或不太活跃),在确定的时间内确保有一个正确答案,或者真值必须是“完全正确”或“完全错误”的,而不是一个确定性的概率或程度。计算理论支持的是另一种有着许多要素的计算机,这些要素对应某个陈述正确与否的概率而赋予不同的活跃程度,其中活跃程度的变化水平非常平稳,从而记录了基本准确的新的概率(正如我们将看到的那样,这也许就是脑的工作方式)。这一问题的核心是,什么使一个系统变得聪明?这个问题的答案不在于制造系统的那种东西,或是流动其中的那种能量,而在于机器的各部分都代表着什么,以及它其中的变化模式是怎样设计来反映出事实关系的(包括概率性事实和模糊事实)。
为什么要接受“心智计算理论”
为什么你应当接受心智计算理论呢?因为它解决了困扰千年的哲学问题,开启了计算机革命,提出了神经科学的重大命题,并为心理学提供了一个成果无法计量的研究方略。
几代的思想家绞尽脑汁都不得其解的一个问题是,心智是如何与物质相互作用的。正如杰瑞·福多所说:“自怨自艾能让一个人哭泣,洋葱也能。”我们无形的信念、欲望、想象、计划和目标如何能反映我们所处的世界,并撬动我们改变世界的杠杆呢?笛卡儿之所以成为他之后几个世纪科学家的笑料(这是不公平的),因为他提出心智和物质是不同种类的东西,它们在脑中一个叫作松果体的部位相互发生作用。哲学家吉尔伯特·莱勒(Gilbert Ryle)将这种概括观点讥笑为“机器中的鬼魂法则”。这个短语后来也被作家阿瑟·考伊斯特勒(Arthur Koestter)和心理学家斯蒂芬·考斯林(Stephen Kosslyn)选作他们的书名,也被摇滚演唱组合用作一个专辑名称。莱勒和其他一些哲学家主张,心理术语诸如“信念”“欲望”和“想象”都是无意义的,这些概念都来自对语言草率的错误理解,就像有人听到“for Pete's sake”(天哪)这样的表述就去四处寻找Pete一样。讨巧的行为心理学家们则宣称,这些无形的存在就像牙仙一样不科学,所以必须被摒弃出心理学领域。
接着计算机就来了:它是一个没有精灵,驱妖降魔的金属块头,也是一个没有完整的心理词典就无法解释的家伙。
“为什么我的计算机打印不了?”“因为程序不知道你把点阵式的打印机换成了激光打印机。程序还以为它是在与点阵对话呢,所以正请求打印机确认它的信息,来试着打印这篇文档。但打印机不理解这个信息;它正打算忽略,因为它期望它的输入是以‘%!’开头的。程序拒绝放弃控制,它在搜索打印机,因此你需要注意显示器,这样程序就能夺回控制。一旦程序习得了它所连接的是什么类型的打印机,它们就能沟通交流了。”系统越复杂,用户则越像专家,计算机与打印机之间的技术对话听起来就越像肥皂剧的场景。
行为主义哲学家们坚持认为,这只是无意义的对话。他们会说,机器并不是真的理解或尝试做任何事情;而旁观者对于他们用词的选择过于草率,很容易陷入严重的概念错误的危险当中。这种情况哪儿出问题了?哲学家们为什么指责计算机科学家思维不清楚?计算机是世界上对精确性和显见性要求最为死板、挑剔、不讲情面、不宽恕的东西了。根据上述指责,你会以为,当计算机出问题的时候,是摸不着头脑的计算机科学家给哲学家打电话,而不是出现相反的情况。一个更好的解释是,计算最终解密了心理语言的术语。信念是记忆中的铭文,欲望是目标铭文,思考是计算,知觉是感受器引发的铭文,行动是目标引发的执行操作。
你可能会反驳,我们人类在有信念、欲望或知觉时,会感受到一些东西;而铭文则缺乏创造这种感受的力量。很好,不过请将解释智能的问题与解释有意识的感受区分开来。到现在为止,我都是在尽力解释智能,我会在本章的稍后部分讨论意识。
心智计算理论还为名声不佳的“小人理论”彻底平反昭雪。对“思维是内部表征”这一观点的标准反驳是(那些想证明自己是如何务实而坚定的科学家们非常欢迎这个反驳),表征需要脑袋里有个“小人”来看着它,而这个小人又需要一个更小的小人来看着它内部的表征,如此类推,永无止境。我们又一次看到了理论家的表演,他们坚持对电气工程师说,如果工程师是对的,那么他的工作站必须包括一群小精灵。谈论小人在计算机科学中是必须的。数据结构随时要被读取、解释、检测、识别和修改,而做这些工作的子程序毫无悬念地被称为“代理人”“小幽灵(后台程序)”“监督者”“监视者(器)”“解释者”和“执行者”。为什么这种小人论调就不会导致无休止的倒退呢?因为内部表征不是对世界的逼真拍摄,“看着它”的小人也不是整个系统的微缩翻版,小人不需要全部的智能。如果那样,那将什么也解释不了。相反,表征是一组对应世界不同方面的符号,每个小人只需对某些符号以一种限定的方式做出反应,这比起作为一个整体的系统所做的事情要简单多了。系统的智能源自于系统内部不那么智能的机械小人的活动。这个观点首先由杰瑞·福多于1968年提出,丹尼尔·丹尼特又对此做了简洁的阐述。
小人只有在能复制整个智能时,才被称为是精灵。如果一个人能让一群相对无知、狭隘、瞎眼的小人组成团队或委员会,在整体上做出智能行为,这就是进步。流程图是典型的小人委员会(调查者、图书管理员、会计、执行官)的组织结构图:每个盒子装着一个小人,规定一种职能但却不说怎样去实现(有人认为这实际是:将一个小人放到那里去做那件事)。如果我们离近些看每个盒子,我们会发现,每个功能的实现是通过细分成又一个流程图,由更小、更蠢的小人们来完成的。这种像搭窝一样,盒子里面套盒子的方式的最终结果是,小人们傻得足可以“被机器替代”(据有人的说法),它们所要做的就是记住在被提问时说“是”还是“否”。这样,组织一大队傻瓜就可以完成高级的小人在系统中所做的工作了。
你可能还不明白计算机里的“小幽灵(后台程序)”如何通过做标记和抹去标记就表征了或代表了大千万物。谁来决定系统中的这个标记就对应世界中的那个东西?对计算机而言,答案显而易见:我们决定符号意味着什么,因为我们制造了这台机器。但是谁赋予了我们内部所提出符号的含义呢?哲学家们将这个问题称为“意图性”(英文为intentionality,这个提法令人迷惑,因为它与意图无关)。意图性的问题有两个一般的回答:一是符号通过我们的感觉器官与外部世界中它所提及的对象相联系。你母亲的脸反射光,刺激你的眼睛,激发了一连串模板或相似的电路,将符号“母亲”刻写入你的心智中。另一个回答是,由第一个符号引发的符号操控独特模式反映了第一个符号对象与被引发符号对象之间关系的独特模式。不管什么原因,一旦我们同意母亲意味着母亲,叔叔意味着叔叔,那么由“小幽灵(后台程序)”产生的新的相互嵌套亲属关系的陈述,就一次又一次地变成了神秘的真理。机器打出“Bella mother-of Me”,果不其然,Bella就是我的母亲。Mother意味着“母亲”,因为这个符号在有关母亲的推导中发挥了作用。
这些被称为“因果”和“推导-作用”理论,厌恶这些理论的哲学家们想出一些荒谬的假想实验来反驳它们。俄狄浦斯不想娶她的母亲,但他还是娶了,为什么?因为他母亲引发了他心智中Jocasta的符号,而不是Mom的符号,他的欲望被局限于“如果她是母亲,就不能娶她”。Jocasta这个符号所代表的女人确实是俄狄浦斯的母亲,但这个因果效应是无关的。有关且重要的是Jocasta和Mom的符号在俄狄浦斯大脑里所发挥的推导作用。一道闪电击中了沼泽中间的一棵死树,由于一个令人惊叹的巧合,在那一刻稀泥融合在一起成了我的复制品一个分子都不差,记忆也包括其中。沼泽人从没和我的母亲联系过,但绝大多数人会说他对于母亲的思维是关于我母亲的,就像我对于母亲的思维一样。我们又一次得出结论,要使一个符号表示有关世界的某个东西,并不一定需要这个东西和这个符号是前因后果,能用符号推导出来就足够了。
但是,但是,但是!假设一个会下国际象棋的计算机中信息处理步骤的顺序,被发现由于惊人的巧合,与六日战争中的战场事件完全相同(国王的骑士=以色列外长达扬,车到C7=以色列军队占领戈兰高地,等等)。这个程序与六日战争的“相关”不就和它与国际象棋比赛的“相关”完全一样吗?假设有一天我们发现猫根本就不是动物,而是由来自火星的特别逼真的机器人,任何运算“如果它是猫,那它就一定是个动物”的推导原则都将不再生效。我们的心智符号“猫”的推导作用将会被改得面目全非。当然“猫”的含义是不变的:当机器人菲利克斯悄悄溜进溜出的时候,你想到的还会是“猫”。让我们为因果理论打两分吧。
第三种观点是对《周六夜现场》(Saturday Night Live)中电视广告的滑稽模仿:你们都正确!它是地板蜡,也是甜点饮料。一个符号的因果作用和推导作用一起决定了它所表征的内容。(根据这个观点,沼泽人的思维将是关于我母亲的,因为:当他遇到她时,他会认出她来。)因果作用和推导作用倾向于同时发生,因为根据自然选择的设计,我们的知觉系统和推导模块绝大多数时间里都在这个世界上准确地运行着。不是所有的哲学家都同意因果加推导加自然选择,就足以明确“含义”的概念,并在所有的世界中运行不爽。(“假设沼泽人在另一个星球上有一个同卵双胞胎……”)但如果这样,有人会回答,“含义”的概念就更糟糕了。含义之所以有意义,只是为在特定世界中发挥作用而设计的一台机器而言的(这台机器或由工程师设计或自然选择设计)。在其他的世界——火星、沼泽地、暮光之界——预测无效。无论因果加推导理论是否已被哲学家完全证明,它还是将心智或机器中的符号如何表示一些含义这个谜解开了。
表明心智计算理论走的是正轨的另一个标志是人工智能的存在:执行像人类智能一样任务的计算机。在任何折扣店你都能买到一台计算机,它在计算、存储和提取事实、起草绘画、检查拼写、规定邮件次序以及确定类型方面,超过一个人的能力。在一个存货齐全的软件商店,你能买到下一手出色国际象棋的软件和可以辨认字母字符以及识别发音清楚的讲话的软件。钱包比较鼓的顾客还能买到能用英语回答有关限定主题的问题的软件,以及控制机器人胳膊来焊接喷漆以及在成百个领域,诸如选择股票、诊断疾病、开具药方和修理机器故障等复制人类专业技能的各种软件。1996年,“深蓝”计算机在与国际象棋世界冠军加里·卡斯帕罗夫(Gary Kasparov)的对弈中赢得了一局,逼和两局,尽管最终输掉了比赛,但计算机彻底击败一个世界冠军只是一个时间问题。尽管世界上还没有终结者级别的机器人,但已经有几千个小规模的人工智能程序,其中一些就隐藏在你的个人电脑、汽车或电视机里,而且进展还在持续。
这些低调的成功值得说说,因为围绕计算机马上就能实现的和永远也不会实现的,争论火药味十足。一方说机器人基因指日可待了(心智就是计算);另一方说这永远也不会发生(心智不是计算)。这个争论似乎就出自克里斯托弗·瑟夫(Christopher Cerf)和维克多·纳瓦斯基(Victor Navasky)的《专家发言》(The Experts Speak)栏目:
《波士顿邮报》社论,1865
见多识广的人知道,通过电线来传递语音是不可能的;假使有可能做到的话,这东西也没有任何实用价值。
温斯顿·丘吉尔,1932
50年之后……我们将不再为了吃鸡胸肉或鸡翅而荒唐地饲养一整只鸡,而是将在合适的介质中分别饲养这些部位。
加尔文爵士,热力学和电学的开创者,1895
比空气重的飞行机器是不可能出现的。
列奥·车尔尼,美国研究学会的出版编辑,1955
[到1965年]开路先锋型豪华车将长约20英寸,使用以汽油为动力的涡轮式发动机,这种引擎是喷气式飞机引擎的小兄弟。
李·蒂夫里斯特,真空管的发明者,1957
无论未来科学有多少进步,人类也永远不会到达月球。
阿历克斯·鲁伊维特,真空吸尘器制造商,1955
原子能做动力的真空吸尘器大概在10年内就会成为现实。
未来学中有一个预测毫无疑问将会是正确的,那就是,在未来,今天的未来学家看上去将会很傻。谁也不知道人工智能最终将达到什么程度,它将经历无数次实践中的变迁,而这些变迁只有参与其中者才能知晓。而无可争议的是,计算机能够变得智能化。
科学理解与技术成就松散地联系着。我们对于髋骨和心脏的深入了解已经有一段时间了,人工髋骨已经很常见,而人工心脏还无从捉摸。当我们在人工智能中试图寻找计算机和心智的线索时,一定要谨记理论与应用之间的陷阱。如果要给计算机启示下的心智研究贴上合适的标签,自然计算要比人工智能更恰当。
心智计算理论已经悄悄地侵入了神经科学的领地:对大脑和神经系统的生理学研究。信息处理是大脑的基本活动,这个观点已经渗透到这个领域的各个角落。信息处理使得神经科学家对神经元比对胶质细胞更感兴趣,尽管胶质细胞在脑中占据更多的空间。神经元的轴突(长长的输出纤维),跨越长长的间隔高保真地传播信息,当它的电信号在突触被转化为化学信号时(神经元之间的连接),信息的物理形式发生了变化,而信息本身则保持不变。正如我们将看到的,每个神经元上的树突(输入纤维)似乎在执行着基本的逻辑和统计操作,这些操作构成了计算的基础。信息理论术语,诸如“信号”“编码”“表征”“转换”和“处理”充斥在神经科学的语言中。
信息处理甚至还界定了这个领域内的合理性问题。视网膜成像是颠倒的,我们是怎么样设法正过来看世界的呢?如果视觉皮层是在脑的后部,为什么我们感觉上不是在脑袋后面看呢?为什么被截肢者可能会感觉到他原来长肢体的地方会有虚幻的肢体呢?为什么我们对绿色立方体的感受来自既不是绿色的也不是立方体形状的神经元呢?每个神经科学家都知道这些是伪命题,但为什么它们是伪命题呢?因为它们是关于大脑的特性的,而这些特性同信息的处理和传递没什么两样。
如果一个科学理论只是同它所解释的事实和所启迪的发现一样出色,那么心智计算理论的最大卖点就是它对心理学的影响了。斯金纳和其他行为主义学者坚持认为,所有关于心智活动的探讨都是徒劳的空谈;只有刺激-反应才能在实验室和实地进行研究。实际却恰恰相反。在20世纪五六十年代,计算的观点被纽威尔和西蒙以及心理学家乔治·米勒(Geogre Miller)和唐纳德·布劳德本特(Donald Broadbent)引入之前,心理学乏味、乏味、又乏味。那时的心理学课程设置包括生理心理学,即反射;感知,即哔哔声;学习,即小白鼠;记忆,即无意义的音节;智力,即智商;人格,即人格测试。自那以后,心理学把历史上最深刻的思想家们思考的问题带到了实验室,并得到了数千个发现,遍及心智研究的各个方面,这在几十年前是做梦都想不到的。
这种繁荣源于由心智计算理论设定的心理学的一项核心研究方略:发现心理表征的形式(心智使用的符号铭文)和获得表征的过程。柏拉图说,我们被拘禁于一个山洞中,只能通过投射在洞内墙壁上的影子来获知这个世界。头盖骨就是我们的山洞,心理表征就是影子,内部表征的信息就是我们对这个世界的一切所知。打个比方,设想一下外部表征是怎么工作的。我的银行对账单上每笔存款只列出一个总额。如果我存了几张支票和一些现金,我就无法证实某张支票是否在其中;那个信息在表征中被抹去了。另外,表征的形式决定了它能推出什么,因为可以被机器替代的蠢笨小人唯一能回应的就是符号及其安排。我们对数字的表征非常重要,因为对数字执行加法只需要几个无人驾驶般的操作:查找加法表中的条目,然后传送数字。罗马数字用不了,除非用作标签或装饰,因为加法运算用罗马数字做太复杂,而乘法和除法运算根本就算不了。
确定心理表征是心理学中通往严谨之路。许多对行为的预测期望都有种空想的感觉,因为它们解释心理现象是在使用觉得同样神秘的另一种心理现象。为什么人们觉得这个任务比那个更麻烦?因为这个任务“更困难”。为什么人们把关于一个东西的概念用到另一个东西上?因为这些东西很“类似”。为什么人们注意这件事情而不是那件事情?因为这件事“更突出”。这些解释都是诡辩。困难、类似和突出都处于观察者的心智中的,而这正是我们应该去解释的。计算机发现去记住《小红帽》的主要内容比记住一个20位的数字要难,而你觉得记数字比记主要内容要难。你发现两个用报纸揉成的球很相似,即使它们的形状完全不同;还发现两个人的脸不一样,尽管它们的形状几乎完全相同;靠夜空中的星星导航的候鸟觉得晚上不同时段的星座位置差异很大,而这些我们几乎是注意不到的。
但如果我们再往下跳到表征这一层,我们会发现更坚实的一种实体,它可以被严格地清点和匹配。如果一个心理学理论有任何好处的话,它应当预测出,“困难”任务所需的表征比“简单”任务所需表征的、包含有更多的符号或引发更长的“小幽灵(后台程序)”连锁链;它应当预测出两个“相似”东西的表征比“不相似”东西的表征有更多相同的符号和更少相异的符号;“突出的”实体应当比它们附近的实体有更多不同的表征,“不突出的”实体应当有相同的表征。
认知心理学的研究一直在尝试在人们记忆、解决问题、识别物体和从经验中概括时,通过测量人们的报告、反应时间和所犯的错误来确证心智的内部表征。人们概括归纳的方式可能是揭示心智使用很多心理表征的最明显的标志了。
假设你要花一段时间才能学会阅读一种镶着彩边的新式时髦字体。你练习阅读了一些单词,现在已经和阅读其他字体的速度一样快了。现在你看到一个熟悉的单词,你没练习过——比方说“elk”(麋鹿)。你需要重新学习这个单词是个名词吗?你需要重新学习怎样发这个词的音吗?你需要重新学习它指向的对象是个动物吗?这个指向的对象看上去怎样?它重吗?有呼吸吗?它给孩子喂奶吗?当然不用。但你这项平庸的才能说明一件事。你对于单词“elk”的知识不会与字母的外形直接相联系。如果是的话,那每次你看到新的字母时,你的知识将不会自动匹配到这些字母,直到你学会了它们,建立了全新的联系。现实中,你的知识一定是连接到了一个节点、一个数字、一个记忆中的地址或是心理字典中的一个条目,来代表抽象单词“elk”,这个条目在如何打印或发音方面一定是中性的。当你学会了新的铅字体,你就创造了一种对于字母表字母的、新的视觉触发器,它触发了旧的“elk”条目,所有连接这个条目的东西都马上可用了,而无须你再把对“elk”所知的一切东西重新一条一条地与新字体的“elk”连接起来。这就是我们所知的,你的心智包含的心理表征如何具体对应到抽象的单词条目,而不仅是单词打印时的形状。
这些飞跃以及它们所暗示的内部表征,是人类认知的标志。如果你学会“wapiti”是麋鹿的另一个名字,你会将把所有与单词“elk”连接的事实迅速转移到与“wapiti”的连接上,而无须再次一个一个地重新焊接。当然,转移的只是你的动物学知识,你不会指望“wapiti”的发音会和“elk”一样。这说明你的表征水平是具体到单词背后的概念,而不是单词本身。你对于有关麋鹿的知识是挂在概念上的;单词“elk”和“wapiti”也挂在概念上,拼写“e-l-k”和发音[elk]则挂在单词“elk”上。
我们已经从字体向上移动了,现在我们来向下移动吧。如果你已经习得铅字是白纸上的黑墨粉,你就不用再因为是红纸白墨而重新学习。这揭示出,表征是依据视觉边界的。任何颜色毗邻其他任何颜色都被视为一个边界,边界界定笔画,对笔画的布置组成了一个字母数字式的字符。
与一个像麋鹿这样的概念相连接的各种心理表征,可以被表示为一张图(见图2-1),有时它被称为语义网络、知识表征或命题数据库。
图2-1 elk的语义网络
这是我们保留在大脑中的海量多媒体字典、百科全书和“如何做”操作手册中的零星碎片。我们心智中到处都是这些一层接一层的表征。比如说,我请你用你想用的任何字体风格写出单词“elk”的印刷体,但是要用左手(如果你是右撇子),或者用你的脚趾在沙地上写,或者用牙齿咬着一根光笔来画。你写出的字会很烂,但认得出来。你可能需要练习来使动作变得流畅,但你不需重新学习组成字母的笔画,更不用说每个英语单词的字母顺序和发音了。这种技能转移一定进入了确定几何轨迹的运动控制的表征层,但不是完成这一动作的肌肉收缩或肢体移动层。动作轨迹将被更低层次的附属器官控制程序转化为实际的运动。
或者回忆一下本章前面莎莉逃离着火大楼的例子。她的欲望一定已经被逃离险境的抽象表征所占据,而不是跑离烟雾的表征,因为欲望可能会被不是烟的其他标志所引发(有时,烟也不能引发它),她的逃离也可以通过许多种行动来完成,而不只是奔跑。但是她的行为反应就在那个地方、那个时候汇聚在一起。莎莉当时的心智一定是模块化的:一部分她评估风险,另一部分决定逃到哪儿,还有一部分解决怎样逃的问题。
对心语和其他由各个部分组成的表征的组合学,解释了人类思维和行动具有无穷无尽的组成部分。组成它们的几个元素和几条规则能够产生几乎无穷尽的不同表征,因为潜在表征的数量是随规模而呈指数级递增的。语言是一个明显的例子。比如说,你在一句话中开始的那个词有10种选择,第二个词也有10种选择(这样两个词的开端就有100种选择),第三个词也有10种选择(三个词的开端有1000种选择),以此类推。(事实上,10是在组成一个合乎语法的合理句子时,每一个点的可供单词选择数量的约略几何平均值。)稍微做点算数就知道,有20个或更少单词的句子(并不特别长)的数量大约是1020:一个1后面跟着20个0,或者一亿兆,又或者自宇宙诞生以来以秒为单位的时间量的100倍。我举这个例子不是为了让你对语言的海量印象深刻,而是要让你惊叹于思维的浩瀚。语言,毕竟不是狂喊乱唱:每个句子表达的都是一个独特的观点。没有两个完全同义的句子,所以人们除了那些各种各样无可言喻的思维之外,还能享有大约一亿兆个不同的,可言喻的思维。
这种思维结构的无穷组合性体现在人类活动的许多领域。年轻的约翰·斯图尔特·密尔惊慌地发现,音符的有限数量再加上一个音乐作品的最长实际篇幅,就意味着世界将很快就把全部旋律都用光。当他陷入这种愁思时,勃拉姆斯、柴可夫斯基、拉赫曼尼诺夫和斯特拉文斯基还没有出生,更不用说整个拉格泰姆、爵士、百老汇音乐剧、电声蓝调、乡村和西部、摇滚、桑巴、瑞格舞,还有朋克这些体裁了。我们任何时候都不大可能很快出现旋律匮乏,因为音乐是组合性的:如果一个旋律的每个音符都有,比方说,平均8种选择,就会有64对音符,512种3个音符的花样,4096种4个音符的乐句,以此类推,连乘出数以兆兆计的音乐作品。
我们日常对于知识的轻松归纳是一种证据,说明我们大脑中有几种数据表征。心智表征可以通过心理学实验室表现出来。心理学家用巧妙的技术,就可以抓住心智从一个表征转向另一个表征的活动过程。心理学家迈克尔·波斯纳(Michael Posner)和同事们给出了一个很好的展示。志愿者们坐在一个屏幕前面,看到一对字母迅速一闪而过:比如AA。他们被要求当看到字母相同时按一个键,不同时(比如AB)按另一个键。有时相同的字母都是大写或都是小写(AA或aa),也就是说它们在外形上是完全一样的。有时一个是大写,一个是小写(Aa或aA);他们是字母表中的同一个字母,但外形不一样。当字母外形一样时,人们按键的速度和准确性要比字母外形不同时更好,大概是因为人们把字母当作视觉形式来处理,因而能够只根据它们的几何、模板风格来进行匹配。当一个字母是A而另一个字母为a时,人们需要把它们转化成它们是相同的一种格式,权称为“字母a”;这种转化增加了约1/10秒的反应时间。但如果一个字母一闪而过,另一个几秒钟后也接着闪过,它们是否外形相同就没有关系了;A-接着-A和A-接着-a反应时间都一样。迅速模板匹配不再可能出现了。很显然,在几秒钟后,心智自动将一种视觉表征转化为一种字母表征,抹去了关于它几何形状的信息。
这种实验室花招揭示出人脑使用至少4种主要格式的表征。一种格式是视觉影像,就像一个二维的、图像般马赛克中的模板。(视觉影像将在第4章讨论。)另一种是语音表征,在我们心智中就像播放磁带一样的一段音节,计划准备嘴部的运动并想象着音节听起来怎么样。这个像串一样的表征是我们短期记忆的重要组成部分,就像当我们查到一个电话号码时,心里默念几遍,这样记住的时间就足以拨打这个号码了。语音短期记忆持续1~5秒,可以容纳4~7个“组块”。(短期记忆是用组块而不是用声音来衡量的,因为每个组块可以是一个标签,指向长期记忆中一个更大的信息结构,比如一个词组或句子的内容。)第三种格式是语法表征,包括名词和动词,词组和从句,词干和词根,音素和音节。所有的都安排到层级树之中。在《语言本能》中,我解释了这些表征如何确定什么进入句子中,人们如何用语言进行沟通和文字游戏。
第四种格式就是心理语言,这是一种思维语言,我们的概念性知识栖居其中。当你读完一本书,你忘掉了关于句子的构词和字体,以及它们在哪一页之类的几乎所有东西。你拿走的是它们的内容或要旨。(在记忆测试中,人们自信地“认出”他们从未见过的句子,如果这些句子是对他们所见过句子的意思阐释。)心理语言是抓住其中内容或要旨的介质。我在识别叔叔的产出系统的公告板中用到一些心理语言,在上一张图语义网络的“知识”和“概念”层次中也用到一些。心理语言是心智的通用语,心智模块之间通过心理语言进行信息交流,使我们能够描述我们所看到的,想象我们听到的描述,执行指令,等等。这种交流事实上能在脑的解剖中看到。将我们的记忆置入长期储存的海马及连接结构,容纳负责决策的回路的额叶,都不是直接连接到处理原始感觉输入(边缘和颜色的马赛克以及音高的不断起伏变化)的脑区域。相反,绝大多数输入纤维携带的是神经科学家称之为“高度加工”的输入,这些输入来自于离最初感觉区域往下走一站或好几站地的区域。输入的组成则包括物体代码、单词代码和其他复杂概念的代码。
为什么有这么多种表征?有一个心智的世界语不就简单多了吗?事实上,那将会复杂得可怕。心智软件的模块化组织将知识分作不同的格式打包,这个例子很好地说明了进化与工程设计如何殊途同归,得出了近似的解决方法。软件奇才布赖恩·科尼格汉(Brain Kernighan)与P.J.普劳格(P.J.Plauger)合著了一本书,名字叫《程序设计风格的要素》(The Elements of Programming Style)(巧借斯特朗克和怀特著名的写作指南《风格的要素》的书名)。他们对怎样使程序运行得更强大、更有效,以及如何适当地改善和提高程序运行质量都提出了建议。他们的一个公理是“去掉重复的表述,代之以通用的函数”。例如,如果一个程序需要计算3个三角形的面积,它不需要下3个不同的指令,每个都将其中一个三角形的坐标套进自己的三角形面积公式中。相反,程序应该让这个公式一次就阐释清楚,应该有一个“计算三角形面积”的函数,它应该有标着X、Y和Z的插槽位置来代表任何三角形的坐标。这个函数可以被用3次,每次分别将坐标输入插入X、Y和Z的插槽位置。当函数从一行公式增加为包含多步骤的子程序时,这个设计原则就变得更加重要,它启发了相关原则,所有这些原则都似乎是被自然选择所决定的,就像它在设计我们模块化的、多模式的心智一样:
模块化
使用子程序
每个模块应当做好一件事
确定每个模块都隐藏一些东西
将输入与输出定位在子程序中
第二条原则也体现在这条准则中
选择令程序变得简单的数据表征
科尼格汉和普劳格给出了一个程序的例子,这个程序读取一行文本,然后要把它打印在一个边界内并居中。这行文本可以用多种格式储存(作为一串字符、一列坐标,等等),但有一种格式令这种居中轻而易举:分配80个连续的记忆插槽,对应输入输出显示中80个位置。居中只需几个步骤就可以无差错地实现,无论输入文本的大小;而如果用任何其他的格式,程序就需要更加复杂。大概人类心智使用的独特表征格式——图像、语音回路、层级树、心语——得以进化,就是因为它们使得简单的程序能够计算出有用的东西。
如果你喜欢那门把各类“复杂系统”放在一起处理的智力尖端科学,你可能就会接受赫伯特·西蒙的论点,他认为,计算机和心智中的模块化设计是所有复杂系统中模块化和层级设计的特例。身体包括组织,组织包括细胞,细胞包括细胞器;陆海空三军包括陆军,陆军包括师,师分为营,最终到班;书包括章,章分作节、小节、段落和句子;国家可分作省、市和区。这些“近乎可分解的”系统的界定标准是:属于同一组成部分的元素之间丰富的相互作用,而属于不同组成部分之间元素则相互作用很少。复杂系统是模块的层级,因为只有在模块中相互配合的元素才能保持足够长时间的稳定,从而被组装成越来越大的模块。西蒙用两个钟表匠赫拉和坦帕斯来作类比:
这两人制造的表每只由大约1000个部件组成。坦帕斯制造他的表的方式是这样的:如果他的表正组装到一半而不得不停下来——比方说去接个电话——这表就立刻七零八落了,还需要重新从最基本的零件开始组装……
赫拉制造的表的复杂程度不亚于坦帕斯的那些。但他的设计方式是把大约每10个基本零件装配成局部组件,每10个局部组件又构成一个更大的局部组件,而10个更大的局部组件形成的一个系统就组成了整个表。所以,当赫拉不得不搁下组装一半的表去接电话时,他只损失了一小部分工作,他装配表的人工时间仅占坦帕斯所花时间的很小一部分。
我们复杂的心智活动遵循的是赫拉的智慧。在我们自在生活的时候,不需要注意每一片潦草字迹或筹划每一次肌肉抽动。感谢单词符号,任何一种字体都能唤起全部相关知识。感谢目标符号,任何危险标志都能引发各种方式的逃离。
我带您经过了这么冗长的对心智计算和心理表征的讨论,我希望这样做的收获是,你能了解人类心智所具有的复杂、微妙与灵活性,就算它只是一个机器,只是一个用生物组织做的机器人的机载电脑。我们不需要神灵或神秘力量来解释智能。我们也不需要为了表现得像具有科学性,而忽略我们自己眼睛看到的证据,宣称人类是几捆条件关联、基因的傀儡或是野蛮本能的跟随者。我们既拥有人类思维的敏捷性和洞察力,又能够掌握解释人类思维的机械框架。在后面的章节中,我将试着解释常识、情绪、社会关系、幽默和艺术,这些解释都是建立在一个复杂计算的心理理论基础之上的。
塞尔和彭罗斯,两个失败的反对者
当然,如果都不能想象心智计算理论可能是错误的,那就意味着它根本没有内容。事实上,它已经受到过正面攻击。一个人如果想驳斥一个业已不可或缺的理论时,虚张声势是没有用的,没有什么比削弱它的基础更能有效地摧毁它了。两位耀眼的作者接受了这个挑战。两人都选择了适合于这个情形的武器,尽管他们使用的武器截然相反:一个诉诸淳朴的常识,另一个运用深奥的物理和数学。
第一个攻击来自哲学家约翰·塞尔(John Searle)。塞尔相信他在1980年就用一个改编自另一位哲学家内德·布洛克(Ned Block)[4]的假想实验驳倒了心智计算理论。塞尔的实验也就是著名的“中文屋”实验。一个一点儿中文都不懂的人被关在一个房间里。门缝底下塞进来几张写着潦草字迹的纸。这个人有一个长长的清单,上面列着复杂的指示,比如“当你看到那样的字迹时,你就把它那样写下来”。其中一些规则告诉他把写下的东西从门缝底下再塞出去。这个人严格地听从这些指示。他所不知道的是,这些这样那样的字迹就是中文字符,这些指示就是一个人工智能程序来回答中文故事的问题。就门外的人所知,屋子里面有一个母语是中文的人。现在,如果理解包括运行一个适当的计算机程序,这个人一定理解中文,因为他正在运行这样一个程序。但这人并不懂中文,一个词都不懂;他只是在操控符号而已。所以,理解并不等同于符号操控或计算——也就是说,智能的任何方面也并不等同于符号操控或计算。
塞尔说这个程序缺少意图性,即符号和符号含义之间的连接。许多人将他说的解释为这个程序缺少意识。的确,塞尔相信意识与意图性是紧密相关的,因为我们对于我们有一个想法或用一个词意味着什么是有意识的。意图性、意识及其他心理现象不是由信息处理所导致的,塞尔下结论说,它们是由“真实人脑的真实物理-化学性质”导致的(尽管他从没说过这些性质到底是什么)。
“中文屋”引发了如潮的评论,100多篇文章对此做出了回应。我觉得这是个极好的理由让我把自己的名字从所有互联网讨论小组列表中拿掉。对于人们说整个屋子(人加上规则清单)懂中文,塞尔回答:那好,让这人生记住这些规则,在脑袋里做运算,到户外去工作。屋子没了,而我们的符号操控者仍旧不懂中文。还有评论说,这人缺少与外部世界的感觉运动联系,这是缺少的关键因素;塞尔回复说:假设输入的字迹是来自一个电视摄像的输出,而输出的字迹是对一个机器人手臂的指令。他有了与外部世界的连接,但还是不讲中文。对那些说他的程序没有反映大脑做什么的评论,塞尔可以引用布洛克与“中文屋”对应的实验,“中文体育馆”:几百万个人在一个巨大的体育馆里扮演神经元,每人都拿着步话机彼此之间大声传递信号,模仿一个回答中文故事问题的神经网络。但这个体育馆并不就比这个人懂的中文更多。
塞尔的策略是不断地诉诸我们的直觉常识。你都几乎能听到他在说“哦,得了!你是说这家伙懂中文?!一边儿待着去吧!他一个词都不会讲!他一辈子都住在布鲁克林区!”,诸如此类的话。但是科学的历史并不是那么好心,只需要简单的常识直觉就足够。哲学家帕特里西娅(Patricia)和保罗·丘吉兰德(Paul Churchland)请我们想象一下塞尔的论证应用到反驳麦斯维尔的“光是由电磁波组成的”理论的。一个人手里拿着块磁石上下挥舞,这个人在创造电磁辐射,但却没有光发出来,所以,光不是一种电磁波。这个假想实验将波幅放慢,以至我们用肉眼无法把它们再看作是光。由于相信我们在假想实验中的直觉,我们错误地得出结论,认为速度快的波也不可能是光。与之类似,塞尔将心智计算速度放慢到我们人类不再认为是理解的幅度(因为理解通常是要快得多的)。由于相信我们在假想实验中的直觉,我们错误地得出结论,认为快速计算也不可能是理解。但假设一个加速版的塞尔的荒谬故事能够变为事实,我们碰到一个似乎能够智能地使用中文谈话的人,但他实际上是在远不到一秒的时间里应用了数百万个记忆的规则,这时我们该不该否认他懂中文呢?
我自己的观点是,塞尔只是在探究有关英文单词“理解”的事实。人们不大愿意使用这个词,除非满足了一定的刻板印象条件:迅速而无意识地运用语言规则,且语言的内容与整个人的信念有联系。如果人们避免使用日常的单词“理解”,而去接受那些违背了刻板印象但仍保留着这个现象核心的奇异条件,那么从科学上讲,确实没什么大不了的。我们可以再找另外一个词,或是使用一种技术意义上的旧词,谁会在乎呢?对“如何算是理解”的解释是一样的。毕竟,科学是关于事物运转的原则,而不是关于哪些事物是一个熟悉的词的“真正”例子。如果一个科学家在解释人臂肘的功能时说它是一个二级杠杆,这并不是承认下面的描述:看到一个人抓着一根钢制的二级杠杆,于是宣布:“快看哪,这家伙有3个胳膊肘!”
至于脑的“物理-化学性质”,我已经提到过这个问题:脑肿瘤、鼠脑以及放在试碟里仍然存活的神经组织切片都不能“理解”,但它们的物理-化学性质和我们脑中的一样。心智计算理论解释了这种差异:那些神经组织肉坨没有被布置成执行正确信息处理的连接模式。例如,它们没有能区分名词和动词的部分,它们的活动模式没有执行句法、语义和常识的规则。当然,我们总能称之为物理-化学性质的一个差异(同样的道理可以说两本书在物理-化学性质上有差异),但那样这个术语就没有意义了,因为它不再能用物理和化学的语言来加以界定。
依照假想实验,倒戈转向就是公平竞争。或许对塞尔中文屋的最终回答可以在科幻小说作家特里·比森(Terry Bisson)的一个故事中找到。这个故事在互联网上广为流传,很可能已经被传走样了。它讲述了一个星际探索舰队的首领与他的总司令之间的谈话,它是这样开头的:
“它们是用肉做的。”
“肉?”……“这一点毫无疑问。我们从这个星球的不同区域选取了一些,把它们带到我们的侦察船上,对它们进行了彻底的探查。它们完全是肉。”
“这不可能。那无线电信号是怎么回事?是发往这些星球的信息吗?”
“它们使用无线电波来交谈,但信号不是发自它们,信号是机器发出的。”
“那么谁制造的机器?那才是我们想要接触的。”
“它们制造的机器。这就是我正想告诉你的。肉制造了这些机器。”
“太荒谬了。肉怎么制造机器?你希望我相信肉有感觉。”
“我不是希望你,我是在告诉你。这些生物是这个区域唯一有感觉的种类,而它们是肉做的。”
“它们像奥弗莱人。你知道,那是一种基于碳的智能,但需要经历一个肉的阶段。”
“不是。它们生时就是肉,死时也是肉。我们对它们研究了几个生命周期,这倒没花多长时间。你知道肉的生命周期是怎么回事吗?”
“你饶了我吧。好了,也许它们只是一部分用肉做的,就像是维德莱人。
一个肉头里包着电子原生质的脑。”
“不是,我们那样想过,因为它们确实有点像维德莱人的肉头。不过我告诉过你,我们仔细探查了它们。它们是彻头彻尾的肉。”
“没有脑吗?”
“噢,是有个脑,行吧。只不过脑也是肉做的!”
“那么……思考呢?”
“你还不明白,是吗?脑在思考。脑是肉。”
“思考的肉!你让我相信思考的肉!”
“是的,思考的肉!有意识的肉!爱的肉。做梦的肉。肉就是整个东西!你明白我说的了吗?”
对心智计算理论的另一个攻击来自数学物理学家罗杰·彭罗斯(Roger Penrose)的畅销书《皇帝的新脑》(The Emperor's New Mind)。彭罗斯不是根据直觉常识,而是针对逻辑和物理问题的深奥讨论。他辩称,歌德尔的著名定理暗示数学家——以及延伸到所有人类——都不是计算机程序。约略地说,歌德尔证明了任何形式规范的系统(比如计算机程序或数学上的一组推导公理和法则),如果同等有效(效力足以表明算数的真理)和一致(不产生有冲突的陈述),那么它就能产生正确的陈述,而这个系统却无法证明这些陈述的正确性。既然我们人类数学家能看出这些陈述是正确的,我们就不是与那个狭隘的计算机一样的形式规范系统。彭罗斯相信,数学家的能力来自意识的一个方面,这个方面无法用计算来解释。事实上,它都不能用神经元的运作来解释,它们太大了,以至于不能用达尔文的进化论所解释,甚至不能用我们现在所理解的物理学来解释。
彭罗斯的数学论证已被逻辑学家们认定为是谬误,他的其他一些论断也受到相关领域专家非正面的评价。一个大问题是,现实生活中的数学家们并不具备彭罗斯所认为的他理想中的数学家所拥有的天赋,比如说,确定所依赖的系统规则是一致的。第二个问题是,神经组织中的量子效应几乎相互抵消了。第三个问题是,微管在细胞中是无处不在的,似乎对于大脑如何实现智能并无任何作用。第四个问题是,意识为何可能缘自量子力学根本就没有一丁点儿线索可言。
彭罗斯和塞尔的辩争除了目标相同之外,还有一些共同之处。不像他们所攻击的理论,他们的论点与科学实践的发现与解释无甚关联,在实证上也几乎得不到任何支持,因而对于心智如何工作,这些论点既没有贡献新思路也没有启迪新发现。事实上,《皇帝的新脑》最有趣的意义是丹尼特提出的——彭罗斯对心智计算理论的指责成了一种间接的恭维。心智计算理论如此适合我们对世界的理解,以至于如果彭罗斯想要推翻它,就要驳倒当代神经科学、进化生物学和物理学的绝大部分内容!
神经网络模型的5大特征
在刘易斯·凯洛尔(Lewis Carroll)的故事《乌龟对阿契利斯说了什么》(What the Tortoise Said to Achilles)中,飞毛腿勇士赶上了奋力挪行的乌龟,使芝诺的经典悖论落了空。芝诺的悖论中,只要乌龟稍微先行一小步,阿契利斯就永远也赶不上它。在阿契利斯赶上原来差距的时候,乌龟会又往前前进一点;阿契利斯赶上这段差距的时候,乌龟又往前挪动更少一点,如此往复,永无止境。乌龟又给了阿契利斯一个类似的悖论。阿契利斯从它头盔里拿出一个巨大的笔记本和一支铅笔,然后乌龟开始口授欧几里得第一定理:
(A)与同一个东西相等的东西彼此相等。
(B)这个三角形的两边是与同一个东西相等的东西。
(Z)这个三角形的两边彼此相等。
阿契利斯让乌龟同意,任何人只要接受A和B以及“如果A并B,那么Z”,那么他就一定接受Z。但现在,乌龟不同意阿契利斯的逻辑。它说它有权拒绝结论Z,因为没有人在它必须接受的前提清单上写下过“如果-那么”规则。于是阿契利斯在它笔记本的清单上又在后面增加了一条C:
(C)如果A和B都真实,那么Z也一定真实。
乌龟回答说,它没看出为什么应该假设:只是因为A和B和C真实,Z就也真实。于是阿契利斯又增加了一条陈述:
(D)如果A和B和C都真实,那么Z也一定真实。
然后宣布“逻辑(必须)掐着你的喉咙,强迫你”接受Z。乌龟回答说。
无论什么好得要告诉我的逻辑都值得写下来。所以录入到你的本子上吧。我们把它称作:
(E)如果A和B和C和D都真实,那么Z也一定真实。
“我明白了。”阿契利斯说,他的语调中透着一丝悲伤。
这时,叙述者因为有公务要急着赶往银行,只好作别这快乐的一对,直到几个月后才又经过这个地方。当他又经过时,阿契利斯还坐在极有耐力的乌龟背上,在他的笔记本上奋笔写着,那本子似乎已经快写满了。乌龟说:“你写下那最后一步了吗?我要没数错的话,那是第1001条。还有好几百万条等着呢。”
这个悖论的解决方法当然是,没有一个推导系统会一直因循明确的规则。在某一点上,系统必须像杰瑞·鲁宾(Jerry Rubin)所说的,做就是了[5]。也就是说,规则只需被系统反射性地、强力操作执行即可,无须再提更多的问题。在那一点上,系统如果像一台机器那样运行,将不会去遵循规则,而是会服从物理学定律。类似地,如果表征是由“小幽灵(后台程序)”来读写的(用符号来代替符号的规则),“小幽灵(后台程序)”之中又有更小的(和更笨的)“小幽灵(后台程序)”,最终你得向“捉鬼敢死队”求救了,并用机器来取代最小最笨的“小幽灵(后台程序)”——对于人和动物,机器是用神经元制造的,也就是神经网络。我们来看看对于心智如何工作的图景,是如何建立在大脑如何工作的简单想法基础上的。
最初的线索来自数学家沃伦·迈卡尔洛克(Warren McCulloch)和沃尔特·匹茨(Walter Pitts),他们写了一些关于相互连接的神经元的“神经-逻辑”性质。神经元很复杂,仍不为人所完全理解,但迈卡尔洛克和匹茨以及大多数神经网络的建模者已经识别出神经元所做的最重要的一件事。事实上,神经元累积到一定数量,然后将总数与一个阈限相比较,来确定是否超过这个阈限。这就是对神经元所做的概念性描述;相应的物理描述是,一个触发的神经元其激活程度在不断变化,它的激活水平受到来自轴突的激活水平的影响,而轴突从附着在突触上的其他神经元一直延伸到本神经元的树突(输入结构)。突触具有的电量从正(兴奋的)到零,再到负(抑制的)。每个到来的轴突的激活水平再乘上突触的电量。神经元将这些到来的激活水平累加到一起;如果总数超过了阈限,神经元就会变得更活跃,继而向任何与它相连的神经元发送一个信号。尽管神经元总是处在激活状态,而到来的信号只是使它的激活水平变化为更快或更慢的可察觉速率,但有时将它们描述为关(静息率)或开(动作率)还是比较方便。
迈卡尔洛克和匹茨证明了,这些模型神经元是如何连接在一起组成逻辑门的。逻辑门执行了最基本的关系“且”“或”“非”,这些关系构成了简单推理的基础。如果A为真且B为真,那么“A且B”为真(概念上的)。如果它的两个输入都是开的状态,一个和门(物理上的)会产出一个输出。为了从模型神经元中做出一个且门,要将输出单位的阈限调至比每个输入分量大但小于它们的和,如图2-2左图中的微型网络。如果A为真或B为真,那么“A或B”为真(概念上的)。如果两个输入中任意一个为开的状态,一个或门(物理上的)产出一个输出。要做一个或门,将阈限设定为小于每个输入分量,如图2-2中间的微型网络所示。最后,如果A为假,“非A”(概念上的)为真,反之亦然。一个非门(物理上的)当它没收到输入时,会产出一个输出;反之亦然。要做一个非门,将阈值设定为零,这样当没收到任何输入时,神经元会触发;令输入分量为负,这样输入的信号就会抑制神经元,正如图2-2右图中的微型网络所示。
图2-2
我们假设,每个模型神经元都表征一个简单的命题。微型网络可以连接在一起,其中一个的输出供应了另一个的输入,这样就可以评估一个复杂命题的真伪了。例如,一个神经网络能够评估命题{[(X咀嚼它反刍的食物)和(X有偶蹄)]或[(X有鳍)且(X有鳞)]},概括什么样的动物才清洁可食[6]。事实上,如果一个模型神经元网络被连接到某种可延伸的内存记忆(比如在一个橡皮印章和一块橡皮下滚动的一卷纸)时,它就成了一台图灵机,一台全速运转的计算机。
但是,在逻辑门中表征命题或组成命题的概念是完全不现实的,无论这些逻辑门是用神经元还是用半导体做的。问题在于,每个概念或命题都必需事先作为分开的单位并连接好。而计算机和大脑都是将概念表征为对于几组单位的活动模式。一个简单的例子就是,普通的字节代表着你计算机中的一个字母数字字符。字母B的表征为01000010,其中的数字(比特)对应到排列成行的小小硅片上。第二和第七小片充上了电荷,对应于1;其他小片没充电荷,对应于0。一个字节也可以用模型神经元来做,识别B模式的电路可以做成图2-3这样的简单神经网络:
图2-3
你可以想象,这个网络是组成一个“小幽灵(后台程序)”的一部分。如果模型神经元的最底下一行与短期记忆相连,最上面的将检测短期记忆中是否包含一个符号B的情况。在图2-4有一个“小幽灵(后台程序)”局部网络,它将符号B写入内存记忆。
图2-4
我们正在用模型神经元构建一个传统数字计算机,不过让我们略微调整一下方向,做一台更具生物形态的计算机。首先,我们可以用模型神经元来执行模糊逻辑而不是经典逻辑。在许多情况下,人们对某事是否正确并没有“全部或者没有”的十足把握。一件东西可以是某个类别中比较好或比较差的一个例子,而不是要么属于要么不属于。以类别“蔬菜”为例,绝大多数人同意,芹菜是彻底的蔬菜而大蒜是个一般般的例子。如果在里根政府鼓吹简化学校午餐项目时,我们相信政府的话,那么就连番茄酱也是一种蔬菜了——尽管在遭到如潮的批评后,里根政府承认那不是一个很好的蔬菜。从概念上讲,我们避开认为某种东西是或不是蔬菜的观点,而是说这东西会是比较好还是比较差的一个蔬菜的例子。从物理上讲,我们不再坚持一个表征“蔬菜性”的单位要么开要么关,而是允许它有一个值的范围,从0(如石头)到0.1(如番茄酱),再到0.4(如大蒜),最后到1(如芹菜)。
我们也可以取消任意代码,如果它们将概念与一串没有意义的比特建立关联。每个比特必须要代表什么东西才能存在下去。一个比特可能代表绿色,另一个代表有叶子,还有一个代表咬起来嘎吱响,等等。所有这些蔬菜性的单位都以很小的权重连接到蔬菜这个单位本身。其他代表蔬菜没有的性质的单位(如“磁性”或“移动性”),可以以负权重与蔬菜单位相连。从概念上讲,一个东西具有的蔬菜性质越多,它就是一个更好的蔬菜的例子。从物理上讲,越多的蔬菜性质单位被开启,蔬菜单位的激活水平就越高。
一旦一个网络被允许启动,它就能代表证据的可信程度和实践的概率,也能做出统计决策。假设一个网络的每个单位都代表一条证据显示“是男管家”(如刀子上的指纹,给受害者妻子的情书,等等),假设顶端的节点代表结论为“是男管家干的”。从概念上讲,显示可能“是男管家干的”的线索越多,我们推测“是男管家干的”的可能性就越大。从物理上讲,越多的线索单位被开启,结论单位就被激活得越多。我们可以通过将结论单位设计为以不同的方式整合输入,来在网络中执行不同的统计程序。例如,结论单位可以是一个阈限单位,就像那些开闭式逻辑门中的一样;那些单位只有在证据的权重超过一个临界值时(比如说,“排除合理怀疑”),才执行政策做出决定。或者结论单位能够逐渐地增加其活跃度;它的置信度会随着最初线索的逐渐渗入而慢慢递增,积累得越来越多,然后在收益递减的一点趋于稳定。这是神经网络建模者喜欢使用的两种模型。
图2-5
我们甚至可以再大胆些,从神经元比硅芯片的连接更为方便这一事实中获得启发。为什么不把每个单位都与其他所有单位连接在一起呢?这样的网络所包含的将不只是“绿色”预测“蔬菜性”和“咬起来嘎吱响”预测“蔬菜性”这样的知识,而且还包括“绿色”预测“咬起来嘎吱响”,“咬起来嘎吱响”预测“有叶子”,“绿色”预测“缺乏移动性”,等等(见图2-6)。
图2-6
随着这一变化,有趣的事情就开始发生了。网络开始产生类似于人类思维的过程,而这是连接疏松的网络做不到的。因为这个原因,心理学家和人工智能研究人员已经在使用“所有连接所有”式网络来对许多简单模式识别的例子建立模型。他们建立的网络中,同样的线条出现在不同的字母中,同样的字母出现在不同的单词中,同样的身体部分出现在不同的动物身上,同样的家具部件出现在不同的房间中。顶端的节点往往已被摒弃掉,而只计算各性质之间的相关度。这些网络,有时被称为自动协关器,它有5个典型的特征:
首先,自动协关器是一个重构的、内容寻址的记忆内存。在商业计算机中,比特本身是没有意义的,它们组成的字节有着任意的地址,就像街道中的房子一样,其地址与内容没有任何关系。根据地址获得内存记忆的位置,然后确定一个模式是否储藏在记忆的某个地方,需要你去那里寻找(或利用聪明的快捷方式)。而在内容寻址的内存记忆中,确定某件东西自动会照亮记忆中包含了一个那东西复制品的位置。因为在自动协关器中表征一件东西是通过开启代表其性质的单位的(在芹菜的例子中,绿色、有叶子,等等),而这些单位都彼此很紧密地连接着,所以被激活的单位会相互强化,过了几轮之后整个网络就都传遍了激活的信号,所有与这件东西相关的单位都将被锁止在“开”的位置。这表明这件东西已经被识别出了。事实上,一个自动协关器的连接电储能够支持许多组分量,不只是一个,所以它能够一次储存许多件东西。
更好的是,连接是冗余的,即使这东西只有一部分模式呈交到自动协关器那里,比方说仅仅是绿色和咬时的嘎吱声,模式的其余部分,“是否有叶子”也将自动完成。从某种方面说,这就是心智的回忆。我们不需在记忆中预先设定取回东西的标签,一件物体的几乎任何方面都能将整个物体带到心智中。例如,我们要回想起“蔬菜”,只要想到绿色和有叶的东西;或是绿色和咬起来嘎吱作响的东西;或是有叶的和咬起来嘎吱作响的东西。一个视觉的例子是,我们能够从一个词的几个零散部分就推测出这个词。我们不会将这些黑影看作随机的线段,或是任意序列的字母(像MIHB),而是看作一些更可能的东西(见图2-7)。
图2-7
第二个卖点被称为“优雅地降解”,有助于处理嘈杂的输入或硬件失灵。当输入打印命令pritn file(打印文档)时,计算机回复为信息错误pritn:command not found(pritn:未找到命令)(print拼错为pritn),谁能忍得住不把鞋扔到电脑屏幕上?在伍迪·艾伦的《拿了钱就跑》(Take the Money and Run)中,银行抢劫犯维吉尔·斯塔科维尔由于他的书写而抢劫未遂,因为出纳员问他为什么写下他在拿着一支gub指着她。在那个装点了很多认知心理学家办公室大门的加里·拉尔森卡通片中,一个飞行员正飞临搁浅在一个沙漠孤岛上的一艘遇害难船,他读到画在沙地上的讯息,然后对着步话机大声喊:“等等!等等!……取消行动,我想它写的是‘HELF’。”在现实生活中我们干得要好得多,可能是因为我们装有自动协关器,使用了占优势的相互一致的信息来压倒一个不寻常的信息。“Pritn”会激活更为熟悉的“print”模式,“gub”会倾向于“gun”,“HELF”到“HELP”。类似地,一台计算机如果磁盘中有一个坏比特,一个插槽中有一点腐蚀,或者电源供应中滴入了一滴水,都会导致死机和系统崩溃。但一个疲惫的人、宿醉的人,或是脑受损的人并不会僵掉或崩溃;通常他或她会慢一些,也不太准确,但能够做出一个有智能的回复。
第三种优势是自动协关器能够做一种简约版的计算,称为限制性满意。人们解决的许多问题都有鸡和蛋的特点。第一章中的一个例子是我们根据对平面角度的猜测来计算平面的光亮度,并根据对光亮度的猜测来计算平面的角度,而二者都不能提前确定。这些问题在知觉、语言和常识推理中大量存在。我是在看一个折还是在看一个边?我听到的是元音[I](就像pin中的一样)还是有着南方口音的元音[e](就像pen中的一样)?我是一次恶意行为的受害者,还是一次愚蠢行为的牺牲者?这些模糊之处有时可以通过选择与对其他模糊事件最多数量的解释相一致的解释而解决,如果它们都能被一次解决的话。例如,如果一个发音的声可以被解释为send(传递)或sinned(犯罪的),要是我们听到一个讲话者用同样的元音嘟囔出这两个词我们就能够解决这个不确定性了。我会推断说,他一定是想说send和pen,因为send a pen(传递一支钢笔)是不违反同样约束条件下唯一可能的推测。Sinned和pin会让我说成sinned a pin(犯罪的一支别针),这违反了语法规则和可理解的含义;send和pin可以通过两个元音发音相同的约束条件而摒弃;sinned和pen能够被剔除是因为它们违背了这两个约束条件。
如果所有的相容性都只能一次检测一个,这种推理需要花很长时间。但在一个自动协关器中,它们都被提前编码在连接中,网络能够一次性评估所有的相容性。假设每个解释都是一个模型神经元,一个对sinned,一个对send,等等。假设那对解释一致的单位被连接到正电荷,那对解释不一致的被连接到负电荷。激活将会围绕着网络飞掠,如果一切运转正常,它会确定在一个状态,在这种状态中有最大数量相互一致的解释被激活。用一个恰当的比喻:就像是一个肥皂泡在鸡蛋形和变形虫形状之间摇摆不定,被周边邻近的分子拖拽着进到一块区域。
有时,一个约束网络可以有相互不一致但相等的稳定状态。这说明了这个现象整体的模糊性,即以两种方式来解释整个物体,而不是其各个部分。如果你盯着看图2-8时(称作耐克尔立方),你的知觉会在顶面的俯视感和底面的仰视感之间不停转换。当整体转换发生的时候,对各个局部的解释也被拖着进行转换。每个近边成为远边,每个凸角成为凹角,等等。反之亦然,如果你试着将一个凸角看作凹的,你有时能够促使将对整个立方体的感觉翻转过来。这种动态可以用一个网络来表示(见图2-8下),图中单位代表着局部的解释,三维物体中一致的彼此相互激活,不一致的相互抑制。
第四种优点来自网络自动归纳概括的能力。如果将字母监测器(将一堆输入单位汇集到决策单位)连接到字母打印器(有一个意图单位散开到一堆输出单位中),我们就制造了一个简单的读写或查询“小幽灵(后台程序)”——例如,一个打印出C来回应输入B的机器。但如果你略过中间人,直接将输入单位连接到输出单位,有趣的事情就发生了。你得到的不是一个忠诚的逐个到字母的查询“小幽灵(后台程序)”,而是一个能够做一些查询归纳的机器(见图2-9)。这种网络被称为一个模式协关器(pattem associator)。
图2-8
假设底端的输入单位代表动物的外表:“长毛发的”、“四足的”、“长羽毛的”、“绿的”、“长脖子的”,等等。有了足够的单位,就能通过开启每个动物独特的那组特征的单位来代表它们。开启“长羽毛的”单位,关闭“长毛发的”单位等,就代表了鹦鹉。现在假设顶端的输出单位代表动物学事实,一个代表动物食草,另一个代表动物是温血的,等等。没有单位代表某个特定的动物(也就是说,没有“鹦鹉”单位),但权重自动地代表了动物类别在统计上的知识。它们隐含了这样的知识:长羽毛的动物倾向于是温血的,长毛发的倾向于是年轻的,等等。任何储存在对一个动物的连接中的事实(鹦鹉是温血的)自动地转移到类似的动物(虎皮鹦鹉是温血的),因为网络根本不在乎连接从属于任何一个动物。网络只是说哪些可见的特征可以推测出哪些可见的特征,而略去了关于动物种类共同的表像(见图2-9)。
图2-9
从概念上讲,模式协关器的原理就是,如果两个物体在某些方式上相似,那么它们很可能在其他方式上也相似。从物理上讲,相似的物体是由一些完全相同的单位所表征的,所以任何与一个单位的物体相连接的信息事实上就会与其他物体的许多单位相连接。此外,不同程度的包容级别被添加到相同的网络中,因为任何几个单位的小集合都隐含地界定了一个级别。单位越少,级别越大。比如说有对于“移动”“呼吸”“长毛发”“吠叫”“咬”和“见到消防栓就抬腿”这样的输入单位,发散出所有这六项的连接就触发有关狗的事实。发散出前三项的连接触发了关于哺乳动物的事实。发散出前两项的触发了关于动物的事实。只要有合适的权重,为一个动物设定的知识能够既与他的直接家庭成员也与他的远亲成员共通使用。
神经网络的第五个秘诀是它们从例子中学习,这些学习构成了连接权重的变化。模型建立者(或进化)不需要亲手确定令输出正确所需的上千个权重。假设“老师”将一个输入连同其正确输出供给一个模式协关器,学习机制将网络的实际输出(最初是很随机的)与正确输出相比较,并调整权重为二者的差异最小化。如果网络在一个老师说应当停的输出结点停了下来,我们就想让当前激活输入的汇集更可能在今后也把它开启。所以激活输入对于这个输出的权重就会略微提高。此外,这个输出结点本身的域限也略微地降低了,这样可以让整体都更能感受到这种触发-愉悦。如果网络开启了一个输出结点,老师却说应当关闭,相反的情况就会发生:当前激活的输入线权重会略为下调(有可能将原来超过零的权重调至负值),目标结点的域限则有所上升。这些都使得这个极度活跃的输出结点在今后对应那些输入时更可能关闭。整个系列的输入和它们的输出都呈交到网络,不断往复,导致一浪接一浪的连接权重微调,直到使得每个输入有了正确的输出,至少是尽可能正确的输出。
具有这种学习技术的模式协关器被称为一个感知器。感知器很有意思,但有一个很大的缺陷。它们就像来自地狱的厨师一样,认为每种成分要是有一点不错,许多所有成分就一定会更好。在决定一组输入是否合理地解释了一个输出的开启时,感知器给予了它们更多的权重并把它们累加起来。这往往会给出错误答案,即使是对于非常简单的问题。这个缺陷的一个教科书例子是感知器对于一个称为“异或”的简单逻辑操作的处理,这个逻辑意为“A或者B,但不是二者都”(见图2-10)。
图2-10
当A开启时,网络应该开启A异或B。当B开启时,网络应该开启A异或B。这些事实会诱使网络增加与A相连接的权重(比如说,到0.6),并增加与B相连接的权重(比如说,到0.6),令每一个都足够高可以超过输出单位的域限(比如说,0.5)。但当A和B都开启时,我们的好东西就太多了——即使当我们想让它关闭的时候,A异或B仍一路狂呼乱喊。如果我们尝试小一些的权重或者高一些的域限,当A和B都开启的时候我们可以让它保持安静,但不幸的是,那样的话,当只有A或者只有B开启的时候,它将仍旧不出声。你可以用你自己的权重实验,但你会看到什么也不会发生。“异或”只是不能从感知器中构建的一种“小幽灵(后台程序)”;其他的包括确定开启的单位数是奇数还是偶数的“小幽灵(后台程序)”,确定一串激活的单位是否对称的“小幽灵(后台程序)”,以及得出简单加法问题答案的“小幽灵(后台程序)”。
解决方法是使得网络更少像一个刺激-反应的生物一样,并在输入和输出层之间给它一个内部表征。它需要一个表征令关于输入的关键信息彰显出来,这样每个输出单位只需累加它的输入就能够得到正确答案。以下就是对于“异或”所能做的(见图2-11)。
图2-11
输入与输出之间两个隐藏的单位计算了有用的中间产品。左边的这个计算了简单的情况“A或B”,从而激活了输出结点。右边这个计算繁复的情况“A且B”抑制了输出结点。输出结点可以只计算“(A或B)而不是(A且B)”,这对于它虚弱的力量来说也是力所能及的。要注意,即使是在用模型神经元构建最简单“小幽灵(后台程序)”的微观水平,内部表征也是必不可少的;仅仅刺激-反应的连接是不够的。
还有更好的,一个隐含层网络经过训练,能够运用一个更加新式的感知器学习程序来确定自己的权重。就像以前一样,老师将每个输入的正确输出都提供给网络,由网络来上下调整连接的权重,试着减少差异。但这提出了一个感知器无须担心的问题:如何将连接从输入单位调整到隐含单位。这是一个问题,因为老师又读不出心智,他无从知道封藏在网络内部的隐含单位的“正确”状态。心理学家戴维·鲁梅尔哈特(David Rumelhart)、杰欧弗瑞·欣顿(Geoffrey Hinton)和罗纳德·威廉姆斯(Ronald Williams)找到一个聪明的解决方法。输出单位对每个隐含单位反向传播了一个信号,代表着隐含单位对其所连接的所有输出单位的误差总和(“你传递了太多的激活”或者“你传递了太少的激活”,以及多多少或少多少)。这个信号可以作为代理教学信号用来调整隐含层的输入。从输入层到每个隐含层的连接都能够被上下推动,来减少隐含层在给定当前输入模式的条件下调整过量或不足的倾向。这个程序被称为“误差反向传播”,简称为“反向传播”,可以被后向迭代至无数层。
我们已经到达了许多心理学家看作是神经网络建模者的艺术的高度。在某种方式上,我们已经兜了一圈又回到原点,因为一个隐含层网络就像是麦卡尔洛克和匹茨对他们的神经逻辑计算机所提出的逻辑门的任意路线图。概念上讲,隐含层网络是将一组或对或错的命题组合成一个由多个“和”“或”及“非”连接在一起的复杂逻辑函数的一种方式,这种组合是通过两个扭转而成的。其一为值可以是连续的而不是或开启或关闭,所以它们可以表征一些陈述的正确程度或真实的概率,而不是只能处理完全对或完全错的陈述。第二个扭转是网络在许多情况下能够被训练得通过提供输入和它们正确的输出而采用适当的权重。位于这两个扭转上面的是一种态度:从脑中神经元之间的许多连接获得启发,并对构成网络的门和连接数目的天文数字无所愧疚。这种道德观使一个人能够设计出计算许多概率的网络,因而也是利用了外部世界特征之间的统计冗余性的网络。而这反过来又使得神经网络能够从一个输入概括到类似的输入而无须更多训练,只要这个问题是类似的输入产生类似的输出。
这几个观点是关于我们最小的“小幽灵(后台程序)”及其公告板作为模糊的神经机器如何运作的。这些观点起到一个桥梁的作用,到现在这桥还有点摇晃,它们的解释之路始于概念领域(祖母的直觉心理学以及它背后的各种知识、逻辑和概率理论),延续到规则和表征,最终抵达真实的神经元。神经网络还带来了一些令人愉快的惊喜。在解开心智软件时,最后我们可能会只使用蠢到足以用机器取代的“小幽灵(后台程序)”。如果我们似乎需要聪明点的“小幽灵(后台程序)”,有人就会弄明白怎样用更蠢笨的“小幽灵(后台程序)”来做出这些聪明的来。这一切都发展得太快了,而且有时发展得有所不同,比如当从下至上研究神经元的神经网络建模者能够构建一些“小幽灵(后台程序)”存货时,这些“小幽灵(后台程序)”存货可以做近便的事情,就像一个内容寻址的内存记忆,或是自动概括的模式协关器。心智软件工程师们(事实上,是逆向工程师们)有一个很好的部件目录,他们可以从中订取聪明的“小幽灵(后台程序)”。
人的智能=神经网络+符号处理过程
心理语言中的规则和表征在哪里就停止工作呢,神经网络又在哪里开始发挥作用呢?大多数认知科学家赞同“两极分化说”。在最高的认知层次,我们有意识地亦步亦趋,小心运用着我们从学校所学的规则或自己发现的规则,这时,思维就像一个生产系统,记忆中储存着符号性语句,并由“小幽灵(后台程序)”来执行程序。在较低的层次,语句与规则是在神经网络中得到执行的,神经网络对熟悉的模式做出反应,并将这些模式与其他模式相联系。但这些层次的界限在哪里却仍有争议。到底是由简单的神经网络来应付大量的日常思维事务,用显性规则和命题来处理读书学习之类的任务呢,还是神经网络更像一些全然无知的基础构件,直到它们被组装成结构分明的表征和程序呢?
有一个学派称为联结主义(Connectionism),代表人物是心理学家戴维·鲁梅尔哈特(David Rumelhart)和詹姆斯·麦克莱兰德(James McClelland)。他们认为,简单的神经网络自身就可以解释绝大多数人类智能。更有甚者,联结主义宣称,思维就是一个很大的隐含层反向传播神经网络(Hidden-layer back-propagation network),抑或可能是一组类似或相同的神经网络,而当环境这个培训师调整影响联结的权重时,智能就出现了。我们比老鼠聪明的唯一原因是,我们的神经网络在刺激与反应之间有着更多的隐含层,我们生活环境中的其他人同样也是神经网络的培训师。心理学家不可能跟踪神经网络里通过联结所产生的数百万条激活信号流,而规则和符号可能就是对于网络中这些信息流的一个简便而粗略的估计,但其作用仅此而已。
而另一种观点认为,这些神经网络本身并不能完成任务,我更倾向于这种观点。将神经网络构建成为操控符号的程序这一过程,解释了大多数的人类智能。对符号的运用是人类语言及与语言相互作用的推理部分的基础。这并非所有的认知,但已经是很大一部分了;它已是我们能与自己和他人交谈的全部了。作为心理语言学家,我在工作中搜集的证据表明,即使是讲英语所需的最简单技能,如动词过去时态的组成(walk变为walked, come变为came),对单个神经网络而言,在计算上也是过于复杂而无法处理的。在本节中,我将阐释一个更为一般意义上的证据。我们的常识性思考内容(我们谈话中交流的那种信息),需要一个设计成执行高度结构化心理语言的计算机器呢,还是用通用的神经网络这类东西(有饶舌者戏称为联结浆糊[7])就能解决?我将向您说明,我们的思想有一个精巧的逻辑构成,这种构成绝非简单的同质单位层神经网络(simple network of homogeneous layers of units)所能处理的。
这与您有什么关系呢?因为这些证据对关于心智如何工作这一问题迄今最有影响力的理论提出了质疑。根据该理论,感知器(Perceptron)或隐含层神经网络(hidden-layer network)就是对一个古老教条——想法关联——的高科技执行翻版。英国哲学家约翰·洛克、大卫·休谟、乔治·伯克莱、戴维·哈特利,以及约翰·斯图尔特·密尔都提出,思想是由两条法则所决定的。一条为邻接律(Contiguity):时常共同体会到的想法会在头脑中建立关联。因而,一个被激活,则另一个也随之激活。另一条为相似律(Resemblance):当两个想法类似时,无论什么与第一个想法相关联,则自动也与第二个建立关联。正如休谟于1748年所总结的理论:
自身体验带给我们一些源自某些东西的一致性效应。当一个具有类似可感知特征的新产品被生产出来时,我们期待它能具有类似的功能,并寻找相仿的效应。从一个与面包有着类似光泽和形状的东西中,我们期待能获得相似的营养补充。
基于邻接律和相似律的关联方式也被认为是宣传著名“白板”(洛克对新生儿心智的比喻)的始作俑者。这个被称为“关联论”(Associationism)的学说统治英美的心智学界达几个世纪之久,直至今日,它在很大程度上仍占主导地位。当“想法”被刺激-反应所取代后,关联主义就变成了行为主义。白板说和上述两条“一般-目的”学习法则是标准社会科学模型的心理学基础。我们不时听到些陈词滥调,说我们的成长教育如何令我们在食物与爱、财富与快乐、身高与权力等诸如此类事物之间建立“关联”。
直到最近,关联论仍过于模糊而无法检验。但由于其通常在计算机上进行模拟仿真,神经网络模型可以使想法更为精确。由教师向神经网络提交一个输入和正确的输出,而神经网络则力求在未来对该输入和输出的配对加以复制。这种学习方案是一个很好的邻接法则模型。在所分配的输入表征中,概念本身并没有自己的单位(“鹦鹉”),而是由围绕其特性(“有羽毛”“有翅膀”,等等)的多单位激活模式来表征。这种输入表征使相似的概念得到自动的一般化归纳,因而很好地符合了关联论的相似法则。如果心智的所有部分都能像同一种神经网络来运作,我们就能得到“白板”的程序执行了。因而联结主义提供了一个机遇。通过观察简单神经网络能做什么和不能做什么,我们就能够对持续几个世纪之久的想法关联学说进行严格的检验了。
在开始之前,我们需要做一些解释性的说明。联结主义并不是心智计算理论的替代学说,而是对该理论的一个变体,它主张,人脑信息处理的主要类型就是多元变量统计。联结主义也并不是对人脑如电脑理论的必要更正(该理论认为人脑就像具有一个高速、无差错的序列性核心处理器的商业电脑。事实上,没有人认同这种理论)。阿契利斯认为,所有形式的思考都包含了对逻辑课本中上千条规则的严谨遵循,但现实生活中没有阿契利斯。最后,联结主义者所设想的网络是不现实的脑模型,尽管他们满怀希望地贴着“神经网络”这样的标签。例如,“突触”(联结权重)可以由兴奋转到抑制,信息可以沿着“轴突”(关联)双向流动,但这在解剖学上都是不可能实现的。当面临的选择是完成任务还是反映实际脑工作时,联结主义者往往选择完成任务;这说明他们所提出的神经网络只是一种大致基于神经元比喻的人工智能形式,而并不是一种神经建模。问题在于,这种神经网络是否执行了正确的计算来反映人脑思考的工作运行呢?
原始的联结浆糊不能合理地解释日常思考的5大不凡之处。这些不凡之处最初并不显眼,在逻辑学家、语言学家和计算机科学家们将句子的含义放到显微镜下仔细研究前,甚至没人意识到它们的存在。但正是这些不凡之处为人类思考赋予了独特的准确性和力量,而且我认为它们对回答一个问题提供了重要素材。这个问题就是:心智如何工作。
第一个本领是具有个体性的概念。首先我们来看看神经网络与类似计算机表征的第一个差别。那时我们不是将一个实体符号化为一串字符的任意模式,而是将它表征为一个单位层的模式,每一层代表这个实体的一个性质。这样的一个直接问题就是,无法再区分具有同样性质的两个个体。它们是以一种相同的方式来表征的,系统无视它们是不同的两块物质这一事实。我们已经丧失了个体性:我们可以表征蔬菜或马,但却无法表征某种蔬菜或某匹马。无论系统对于一匹马获知了什么,都会合并到它对另一匹完全相同的马的认知中。没有自然的方式来表征两匹马。让马的结点激活两次没有用,因为那与两倍地确信马特征的呈现或者认为马特征呈现程度增加一倍无法区分开来。
我们很容易把级别与亚级别之间的关系,混淆为亚级别与个体之间的关系。这两种关系确实在某方面很相似。两者中,任何高级别实体的特性都是从低级别实体那里继承来的。如果动物呼吸,且马是动物,那么马呼吸;如果马有蹄子,Ed.先生是马,那么Ed.先生有蹄子。这可以诱惑建模者将一个个体视为一个非常非常具体的亚级别,运用两个实体之间的某些细微差异来区分近似的“小幽灵(后台程序)”。——一个雀斑单位对于一个个体是开启的,而对于另一个个体则是关闭的。
正如许多联结主义者所提倡的,要回溯到英国联结主义。伯克莱写道:“拿走对柔软、潮湿、红色、酸味的感觉,你就等于拿走了樱桃,因为樱桃不是与感觉性质不同的东西。要我说,樱桃是一个感觉印象的集合。”但伯克莱的建议绝对是错误的。你对于两个物体特征的认识可以是完全相同的,而你仍觉得它们是可区分的。想象一个房间里有两把完全相同的椅子。有个人进来把它们彼此调换了一下位置。这个房间与从前一样吗?还是有所不同?很显然,每个人都明白它是不同的。但你不知道两把椅子的差异——除了你可以把一个想作一号椅子,另一个想作二号椅子。我们又回到了记忆插槽的任意标签,就像令人鄙夷的数字计算机中的一样!喜剧演员斯蒂芬·赖特的一个笑话也传达了同样的含义:“在我不在的时候,有人偷了我公寓里所有的东西,然后换成了完全相同的复制品。当我与室友说这事时,他说:‘我认识你吗?’”
当然,有一条总可以用来区分个体:它们不可能在相同的时间处于相同的地点。或许心智能够给每个物体都贴上时间和地点的标签,然后不时地更新这些坐标,使它能够区分具有共同性质的个体。但即使这样,也不能反映出我们心智中区分个体的能力。假设一个无限的白色平面上除了两个完全相同的圆圈之外什么都没有。其中一个圆圈滑过来在第二个圆圈上面贴住了一会儿,然后又滑走了。我想,任何人都会把这两个圆圈看作是不同的东西,即使它们在同一时间同一地点附着在一起的那一小会儿也是如此。这说明在某一时间处于某一地点并不是我们对于“个体”的心理定义。
这并不是说,个体无法在神经网络中得到表征。很简单,只需将一些单位用于表示为个体的识别身份,而独立于个体的性质特征。可以赋予每个个体它自己的单位,或者赋予每个个体一个以激活单位模式编码的等价序列号。寓意在于心智网络的设计要能够执行对个体的抽象逻辑内涵,就像计算机中标记任意标签的内存位置所起的作用。有问题的是受限于物体可观察特征的模式协关器,这个亚里士多德名言“感觉是理智的前提”的现代例证。
这个讨论只是一次逻辑练习吗?当然不是。个体的概念是我们社会推理整体知识的基本粒子。我让你看看两个现实生活中的例子,涉及那些人类交流的伟大领域,爱与正义。
同卵双胞胎的大多数特征都一样。除了外表的相似之外,他们思维相像,感觉相像,行为也相像。当然并不是完全一致,正因如此,有人可能会想把它们表征为非常狭窄的亚级别。但任何把它们表征为亚级别的生物体,都应当至少完全相同地对待同卵双胞胎。这个生物体应当将它的想法从一个传到另一个,至少在概率上或一定程度上如此——记住,这是联结主义及其在联结浆糊中贯彻的一个卖点。例如,无论双胞胎中一人的什么吸引了你——他的走路方式、谈话方式、他的外表,等等——这也会令双胞胎的另外一人吸引你。这应当将同卵双胞胎置于传说中围绕真正完美轮廓的嫉妒与背叛。事实上,什么事也没发生。同卵双胞胎中一个人的配偶对于另一个并没有感觉到罗曼蒂克式的吸引。爱将我们对另一个人的感觉锁定为那个人,而不是那种人,无论对那种的细分有多狭窄。
1988年3月10日,有人咬掉了警官戴维·J.斯托顿的半个耳朵。毫无疑问,是他俩中的某一人干的:要么是肖恩·布里克,一个住在加州帕洛阿尔托的21岁年轻人,要么是约纳森·布里克,他的同卵双胞胎兄弟。两人当时都在与警官扭打,其中一个咬掉了警官的半个耳朵。两人都被指控故意伤害罪、盗窃未遂罪、袭警罪和加重故意伤害罪。加重故意伤害罪,就咬耳朵行为而言,将被判终身监禁。斯托顿警官证实了双胞胎中的一个留着短发,另一个留长发,是留长发的人咬了他。不幸的是,3天后两人自首时,两人的发型都变成了相同的平头,而且两人也不说话。他们的律师辩称,两人谁也不应当因加重故意伤害罪而被判处严厉的监禁。对于兄弟俩中的每一个,都有合理的怀疑是否是他所为,因为有可能是另一个人所为。这项争辩很有说服力,因为我们的正义感要让我们选择做了某个行为的个体,而不是那个个体的性格特征。
我们对于个体位格的执迷并不是一个过于费解的奇癖,其进化的原因很可能是因为,我们所遇到的每个人,与我们所观察的任何财物大不相同;而这种不同之处在于,由于人类独特的胚胎学和个人传记式历史,人确定地容纳了大量不可复制的记忆和欲望。在第6章中,当我们反向逆推正义感和浪漫爱情的情感时,我们会看到记录个体位格的心理活动位于他们设计的核心。
人类并不是我们需要区别对待的唯一一种易混淆的个体,骗局是另一个真实世界中的例子。许多动物需要施展骗局才能保持个体的区分。一个例子是,需要辨别她孩子的母亲,她的这些孩子看上去和其他所有的并无二致,但却携带着她的基因。另一个例子是,牧群动物的捕获者,它需要追踪目标兽群中的一员,采取的就是像盯着游泳池里的标签一样的策略:如果你是目标猎获物,一旦确定就不再更换,分秒必争地直奔目标物。在肯尼亚的动物学家为了使他们的数据收集更加容易,在麻醉针麻翻了的角马角上涂了彩色的编码,但他们发现,在把被作了标记的动物放回兽群之前,无论怎样小心地使它恢复精力,它总会在一两天之后被鬣狗捕杀。一种解释是,彩色标记使鬣狗容易将那只角马与其他的区别开来,从而追赶它直至其力竭而成功将其捕获。最近关于斑马条纹的新观点是,它们不是为了要与条纹高草相混淆而将其作为保护色——这一直是一个可疑的解释——而是为了使斑马成为一出活生生的骗局策略,令狮子和其他捕食者很难将注意力只保持在一匹斑马上时。当然,我们无从知道鬣狗或狮子是否有个体的概念;也许一个古怪的人要站出来会看上去更令它们食欲大开。但这些例子说明了从类别中区分个体的计算问题,并强调了人类心智是如何轻而易举地解决了这个问题的。
关联主义的第二个问题被称为组成性问题:一个表征如何由各种部件组成,以及各个部件的含义和它们的组合方式又如何构成整个表征的含义。组成性是所有人类语言的精华特征。“The baby ate the slug”(婴儿吃了毛虫)的含义可以根据baby、ate、the和slug各词的含义以及它们在句中的位置而得出。整体不是部分的总和;当这些词的顺序变为“The slug ate the baby”(毛虫吃了婴儿)时,传达的意思就不一样了。因为你之前从没听说过这两句话,你必须通过在这串词上应用一套运算法则(整合句法的规则)才能解释整句的含义。每句话最终的含义是你在匆忙中组合在一起时的全新想法。你已经有了“婴儿”、“毛虫”和“吃”的概念,并能够为它们在心理公告板上安排相应的符号,而这种安排是根据能够读取的“小幽灵(后台程序)”所注册的方案而进行的。这样,对整句的理解就成为你从未有过的全新想法。
记者们说,“狗咬人不是新闻,人咬狗才是新闻”。心理表征的组成性使得我们能够理解新闻。我们可以具有疯狂的、奇妙的新想法,无论这想法多么荒诞不经。奶牛跳过月球;格林奇偷走了圣诞节;宇宙源自一个大爆炸;外星生物降临哈佛;迈克尔·杰克逊娶了猫王的女儿。感谢数学中的组合理论,我们永远也不会缺少新闻。还有百万万亿个想法足够我们去想呢!
你可能觉得,将组成性问题放到神经网络中是件很容易的事情:只要开启“婴儿”“吃”“毛虫”的单位就行了。但如果那就是你的心智所做的,你将会感到一头雾水:究竟是婴儿吃了毛虫,毛虫吃了婴儿,还是婴儿和毛虫吃了。概念必须被分配给角色(逻辑学家们称之为“参数”):谁是吃东西的,谁是被吃的。
那么,也许有人可以给每个概念和角色的组合分配一个结点。那就有了一个“婴儿吃毛虫”结点和一个“毛虫吃婴儿”结点。有人可能会想,既然大脑包含了海量的神经元,为什么不那么做呢?不这么做的原因是,海量和真正海量是两个概念。组合的数目会随着可允许的大小呈指数增长,这种组合数量的爆炸式增长远超过了我们对脑容量最大胆的猜想。据传说,宰相西萨·班·达依尔因其发明了国际象棋向印度舍罕王索要微薄的奖赏。他请赏的只是将一粒小麦放在国际象棋盘的第一个方格里,两粒小麦放在第二个方格里,四粒放在第三个,以此类推。还远没到第64个方格时,国王就发现,他已经无意中将他整个王国所有的小麦都送出去了。奖赏总计达四万亿蒲式耳,相当于全世界2000年的小麦总产量。与之类似,思维的组合数目会远远超过脑中神经元的数量。如果每句含义都要有它自己的神经元,那么一亿兆个句子含义怎么压缩也塞不到拥有1000亿个神经元的大脑里去。
即使能够容得下,一个复杂思维也一定不是一个神经元对一个思维那样整体储存的。原因在于,我们的思维是彼此相关的方式。假设每个思维都有它自己的单位,就会有不同的单位分别对应于婴儿吃小毛虫,小毛虫吃婴儿,小鸡吃小毛虫,小鸡吃婴儿,小毛虫吃小鸡,婴儿看见小毛虫,小毛虫看见婴儿,小鸡看见小毛虫,等等。单位必须被分配给所有这些以及更多的思维;任何能想到“婴儿看到小鸡”的人也能够想到“小鸡看到婴儿”。但这种思维对应单位的储存有些可疑之处,它的匹配方式纯粹出于巧合。我们不断地有婴儿吃、毛虫吃、婴儿看、虫子看,等等。所有的思维完美地对应到一个巨大矩阵的各行、列、阶、超行、超列以及超阶。但如果思维是一个各个独立单位的大集合,而这些单位代表的同样也是一大堆彼此割裂、毫无关系的仿真陈述,那么这种惊人的模式就令人难以理解了。当自然交给我们可以合适地放进一个长方形分类储物架的物体时,它是在告诉我们,这些物体一定是由那些对应到各行各列的更小部件所组成的。这就是元素周期表如何引导了人们对原子结构的理解的原因。出于类似的原因,我们可以得出结论,我们思维的经纬线就是组成它们的概念。思维来自概念的组装,概念不是作为整体而储存的。
对于联结浆糊理论而言,组合性有些出乎意料地复杂。所有表面明显的把戏都成为不适当的半吊子测量标准。假定我们为每个单位分配一个概念和角色的组合,也许一个单位代表婴儿-吃,另一个代表小毛虫-被吃;或者可能一个代表婴儿-做-一些事,另一个代表小毛虫-有些东西-被-(做)。这样就大量减少了组合的数量——但代价是增加了“谁对谁做了什么”的疑惑。“卷毛狗吃小毛虫时,婴儿在吃鸡肉”的思维会与“卷毛狗吃小鸡时,婴儿在吃小毛虫”的思维混淆。问题在于,婴儿-吃的单位并没说吃什么,小毛虫-被吃的单位也没说谁吃了它。
向正确方向迈出的一步是,在硬件中构建概念(婴儿、小毛虫等)与它们扮演角色(执行者、被执行对象等)的区分。假设我们确定好各自分开的单位组,一组表示执行者的角色,一组表示行为,一组表示被执行对象。要表征一个命题,每组单位都要装满正在扮演角色的概念模式,这些概念是由另一个分开的概念储存内存那里调入的。如果我们将每一个结点都彼此相连接,我们就有了一个命题的自动协关器,它能够具备少量的组合思维能力。我们可以储存“婴儿吃小毛虫”,当任意两个部分作为问题呈现时(比方说,“婴儿”和“毛虫”,表示问题“婴儿和毛虫的关系是什么”),网络会通过开启第三个部分的单位而完成其模式(在此例中,“吃”。见图2-12)。
图2-12
是这样的吗?可惜不是。我们来看看这些思维:
婴儿 等同于 婴儿
婴儿 不同于 毛虫
毛虫 不同于 婴儿
毛虫 等同于 毛虫
如果一组连接权重允许第一糟的“婴儿”和中间槽的“等同于”开启第三槽的“婴儿”;同时允许“婴儿”和“不同于”开启“毛虫”;同时还允许“毛虫”和“不同于”开启“婴儿”,那么这组连接权重绝不会再允许“毛虫”和“等同于”开启“毛虫”。这是一个改头换面的抑或问题。如果“婴儿-于-婴儿”和“婴儿-等同于”的连接足够强大的话,它们会开启“婴儿”以回应“婴儿等同于”(这是好的),但它们也会开启“婴儿”以回应“婴儿不同于”(这不好)和“毛虫等同于”(也不好)。无论你怎样调整权重,你也无法找到能够满足所有4句话的连接组。既然任何人都能毫无疑问地理解这4句话,那么人类心智一定表征了比一组“概念-到-概念”或“概念-到-角色”关联更为复杂的命题。心智需要一个对命题本身的表征。在本例中,模型需要一个额外单位层——更确切地讲,一个专供表征整个命题,而与概念及其角色相分离的层级。图2-13以简化的形式展示了杰欧弗瑞·欣顿修订的一个能处理这些句子的模型。
图2-13
储存“命题”单位的记忆是以任意模式开启的,有点像标志完整思维的序列数字。它就像一座将每个命题中的概念都容纳到其相应槽中的超级架构。请注意,这种网络架构是在多么严密地执行着标准的、像语言一样的心语啊!还有其他一些组成性网络的提议,不像这样具有明显的模拟性,但所有的提议都必须有一些专门设计的部分来将概念与其角色区分开来,并将每个概念与其各自角色适当地结合起来。还是需要偷偷借来诸如谓项、中项和命题等逻辑要素,以及处理它们的计算工具,才能得到一个模型,来做类似心智一样的事情;仅靠关联这些东西本身是不够的。
另一个你或许从没意识到的心理禀赋被称为量化或变量约束。它源自个体性与组成性的结合。我们的组成性思维往往是关于个体的,而且个体如何与思维的各个部分相联系各不相同。“某个婴儿吃某个毛虫”的想法与“某个婴儿总是吃一般毛虫”的想法是不同的,与一般意义上的“婴儿吃毛虫”的想法也不一样。有一种笑话,其幽默之处需要听者理解那种不同之处。“Every forty-five seconds someone in the United States sustains a head injury(每45秒钟美国就有人头部受到伤害。)”“我的天,可怜的家伙!”(someone可理解为“有人”,也可理解为“某人”)。当我们听到“Hildegard wants to marry a man with big muscles”时,我们不知道究竟她是用她的男性般的气概发出召唤呢,还是她只是满怀希冀地在体育馆里游荡。亚伯拉罕·林肯说:“你可以在某些时候愚弄所有人;你甚至可能永远愚弄某些人;但你不可能永远愚弄所有人。”(You may fool all the people some of the time;you can even fool some of the people all the time;but you can't fool all of the people all the time.)如果没有计算量化的能力,我们就不可能理解他说的这句话的含义。
在这些例子中,我们有几个句子,或者对一个语义含混的句子有几种理解方式,其中相同的概念扮演着相同的角色,但整体意思则完全不同。仅仅将概念与它们的角色连在一起是不够的。逻辑学家用变量和限量词来区分它们。一个变量是指像x或y一样保持位置的符号,它代表着不同命题中或一个命题不同部分中的同一个实体。一个限量词是一个符号,它可以表达“存在着某个x,它……”,且“对于所有的x,……是真实的”。这样,一个想法可以体现在一个命题中,构成这个命题的符号表示了概念、角色、限量词和变量,所有的都予以精确地排序并加括号分类。例如,比较“每45秒钟{就有一个X[受伤]}”和“有一个X{每45秒钟[就会受伤]}”。我们的心语肯定也拥有可以做类似事情的工具。但目前为止,我们尚没有线索了解在一个关联网络中,这是如何做到的。
一个命题不仅可以是关于一个个体的,它自身必须被视为一种个体,这就引发了另一个问题。联结浆糊的力量来自单个一组单位中添加的模式。不幸的是,这可能产生怪异的四不像或是建一个两头都落空的网络。对于联结浆糊,这是无处不在的怪物的一部分,被称为干扰或串扰。
这有两个例子。心理学家尼尔·科罕(Neal Cohen)和迈克尔·迈克劳斯基(Michael McCloskey)训练一个网络学习两个数的加法。他们起初训练它把“1”加到其他数上:当输入“1”和“3”时,网络学会输出“4”,诸如此类。然后他们训练它把“2”加到所有其他数上。不幸的是,这个加2的问题将联结权重提升到加2为最优的值,因为网络没有富余的硬件来设定如何加1的知识,它竟将如何加1忘掉了!这种效应被称为“灾难性遗忘”,因为它不像日常生活的轻度遗忘。另一个例子是麦克莱兰德和他的同事阿兰·川本(Alan Kawamoto)设计的网络,将含义分配给语义含混的句子。例如,“A bat broke the window”的意思可以是一根棒球棒(bat)被扔到窗户上,也可以是一只长翅膀的哺乳动物(蝙蝠:bat)撞到窗户上。而下面这个解释则是人类得不出来的:一个长翅膀的哺乳动物用一根棒球棒打碎了窗户!
正如任何其他工具一样,令联结浆糊对某些事有效的特点,也令它对另一些事无效。网络概括的能力来自于它密集的交互联结性和它输入的叠加重合。但如果你是一个单位,有几千个其他单位在你耳边聒噪,还被一浪接一浪的输入所蹂躏,这并不总是一件乐事。经常是不同的信息组块被分开打包和存储,而不是随意混在一起。一种这样做的方式是给每一个命题分配它自己的存储槽和地址——这再显示了并不是计算机设计的所有方面都可以被草率归结为硅的好奇心。毕竟设计计算机不是来用作室内加热器,设计它是为了以一种对人类使用者有意义的方式来处理信息。
心理学家戴维·舍莉(David Sherry)和丹·夏克特(Dan Schacter)将这种推理推得更远。他们注意到,对于内存记忆系统不同的工程设计要求往往是目标交叉的。他们辩称,作为回应,自然选择给了有机体专门化的记忆系统。每个系统都有一个优化的计算架构专门适合于动物心智必须完成的一个任务的要求。例如,贮藏种子以备收成欠佳日子里食用的鸟类进化出了一种对于隐藏地点的大容量记忆(以星鸦为例,它可记忆10000个地方)。雄鸟歌唱吸引雌鸟,或者恫吓其他雄鸟的鸟类进化出对于歌声的大容量记忆(以夜莺为例,它可记忆200种歌声)。对于储藏地和歌声的记忆是位于不同的脑部结构,并且有着不同的神经元连接模式。我们人类对于记忆系统同时有着两种非常不同的要求。我们要记住谁在什么时间、什么地点、为什么对谁做了什么这种独特场景,这需要在每个场景都标记上时间、日期和一个序列号。但我们还必须推断出关于人们如何工作和世界如何运转的一般性知识。舍莉和夏克特提出的观点是:自然对每种要求分别赋予了我们一种记忆系统:一种“情景式”或自传体式记忆,另一种是“语义式”或一般性知识的记忆,心理学家恩德尔·托尔文(Endel Tulving)最早提出了这种区分。
思维成倍增加到真正的天文数字的把戏不是将概念插槽分配给三四个角色,而是一种被称为递归的心智能力。为每个角色安排固定一组单位是不够的。我们人类可以将一整个命题放到一个更大的命题中,赋予它一个角色。然后我们可以将这个更大的命题嵌套到一个还要大的命题中,这样创造一种命题中有命题的层级式树形结构。不仅这个婴儿吃毛虫,而且父亲看见这个婴儿吃毛虫,我想知道父亲是否看见这个婴儿吃毛虫,父亲知道我想知道他是否看见这个婴儿吃毛虫,以及我能猜到父亲知道我想知道他是否看见这个婴儿吃毛虫,等等。正如给一个数字加1的能力是一种产生一组无限多的数的能力,将一个命题嵌套到另一个命题中的能力,也是一种增加了无限多思维的能力。
为了在图2-13所展示的网络中完成命题之中嵌套命题,可以在图的顶部增加一个新联结层,将整个命题的储存单位联结到一个更大命题的角色插槽中;这个角色可以是像“观察的事件”一样。如果我们继续添加足够的层级,我们就可以通过在联结浆糊中侵蚀全部树形结构而容纳整个成倍增加的嵌套式命题。但这种方法太笨拙,而且会引起疑惑。对于每一种递归式结构,都有一种不同的物理连接网络:一个网络供思考一个命题的一个人;另一个网络是为思考一个关于一个思考一个命题的人的命题的一个人,第三个网络是供一个人与另一个人进行关于某个人的命题的交流,等等。
在计算机科学和心理语言学中,采用了一种更为强大和灵活的机制。每个简单结构(一个人、一种行为、一个命题,等等)都在长期记忆中得到一次表征,处理器的注意在一个结构到另一个结构之间不断穿梭转移,将转移的路线记录在短期记忆中,从而将命题编织在一起。这种被称为递归式转换网络的动态处理器,特别适合于句子理解,我们是一次听或者读一个单词,而不是一次吐纳一个整句。我们似乎也是在一点一点咀嚼深思我们的复杂思维,而不是囫囵咽下或喷出,这说明,心智配备的递归式命题计算研究机不仅仅是为了句子,而且是为了思维。心理学家迈克尔·乔丹(Michael Jordan)和杰夫·艾尔曼(Jeff Elman)构建了一些网络,这些网络的输出单位发出的联结回送到一组短期记忆单位,触发了新一轮激活流。这种回送设计使我们隐约看到,迭代信息处理在神经网络中是如何执行的,但它还不足以解释或汇编结构性命题。最近,有研究者尝试将一个回送式网络与一个命题式网络组合在一起,从联结浆糊的碎片中完成一种递归式转换网络。这些尝试说明,除非神经网络中特别装配了一个递归式处理器,否则将无法处理我们的递归式思维。
心智还具有的另一项认知本领很难从联结浆糊中提取出来,因而也很难用关联论来解释。神经网络轻易地解决了模糊逻辑的问题,即任何东西都是在某些程度上的某种东西。确切地说,许多常识性的概念在其边界处都很模糊,并没有清晰的定义。哲学家路德维希·维特格斯坦举了“a game”(游戏、比赛)的例子,其典型例子彼此并没什么共同之处(包括拼图、速度轮滑、冰壶、角色扮演游戏、斗鸡,等等)。我在前面也曾给出了另外两个例子,“单身汉”和“蔬菜”。模糊类别的成员缺少一个单一确定的特点;它们的许多特点都有所重叠,很像一个家庭中的成员或是绳子的每一股,每一股都没有延续到整个绳子的长度。漫画《布卢姆县》中,企鹅奥普斯患暂时性失忆,当被告知它是一只鸟时,它不同意。它说,鸟的身材苗条,符合空气动力学;而它不是。鸟能飞,它不能。鸟能歌唱,它唱的《昨天》令听众哄堂大笑。奥普斯怀疑它实际上是驼鹿布尔温克。所以即使是“鸟”这样的概念似乎也没有围绕必要和充分条件来组织,而是根据原型成员来界定的。如果你在字典里查“鸟”,例图显示的不是一只企鹅,而是小鸟乔伊——一只典型的麻雀。
认知心理学的实验显示,人们对于鸟、其他动物、蔬菜和工具都有刻板印象。人们对一种刻板印象达成共识,把它反映到一个类别中的所有成员上,比较对于那些不符规范的成员更为迅速地识别出这种刻板印象,甚至当见到的实际只是相似的例子时也宣称其为那种刻板印象。这种反应取决于一个成员与其类别中其他成员之间相同特征的数量:像鸟的特征越多,就越属于鸟类。从一个类别中呈现例子的自动协关器其实在做同样的事情,因为它是在计算特征之间的相关性。所以有理由相信,人的一部分记忆是由一些像自动协关器的东西所连接的。
但心智一定还有比这更多的东西。人们并不总是模糊的。我们笑话奥普斯是因为我们的一部分知道它确实是一只鸟。我们或许同意奶奶的原型是这样的——好心的、灰白头发的、分发蓝莓松饼或鸡汤的七八十岁的老人(依我们所谈论的各人的刻板印象而定)——但同时我们完全明白蒂娜·特纳和伊丽莎白·泰勒也是奶奶(实际上泰勒还是个犹太奶奶)。说到单身汉,许多人——诸如移民官员、太平绅士,还有保健官僚们——因其对于谁属于某个类别毫不含糊而臭名昭著;众所周知,很多事情因一页纸而有天壤之别。毫不含糊的思维例子随处可见。法官可以根据技术理由而释放一个显然有罪的嫌疑人。酒吧服务员拒绝向一个能够对自己行为负责的人提供啤酒,因其尚未过21岁生日。我们开玩笑说,你不能有点儿怀孕或是有点儿结婚;加拿大的一个调查报告称,已婚女性每周做爱1.57次后,卡通画家泰瑞·莫舍画了一个女人坐在床上,挨着她昏睡的丈夫嘟囔:“唉,这算0.57次。”
事实上,模糊版和清晰版的相同类别可以相安无事地共处于一个脑中。心理学家莎朗·阿姆斯特朗(Sharon Armstrong)、亨利·格雷特曼(Henry Gleitman)和丽拉·格雷特曼(Lila Gleitman)在给大学学生做模糊类别的标准测试时,问他们关于像“奇数”和“女性”这样有明确定义的类别。被试们愉快地接受了一些愚蠢的陈述,比如,13是比23更好的一个奇数的例子,以及母亲是比戏剧女演员更好的一个女性的例子。过了一会儿,被试们却又断言,一个数要么是奇数要么是偶数,一个人要么是男人要么是女人,没有中间地带。
人们用两种方式来思维。世界上的东西总是倾向于扎堆儿,人们因此不假思索地吸取了各个特征的相关性,从而形成了模糊的刻板印象。但人们也能创造系统规则——直觉理论——根据适用的规则来界定类别,并依据规则一视同仁地对待类别中的所有成员。所有的文化都有正式的亲缘规则系统,这种规则系统非常精确,甚至往往能够证明其中的定理。我们自己的亲缘系统为我们给出了清晰版本的“奶奶”或“姥姥”:父母一方的母亲,让松饼见鬼去吧。法律、算术、大众科学以及社会惯例(用其生命阶段的仪式清晰地将成人与孩童,丈夫与单身汉区分开来)是其他的一些规则系统,世界各地的人们用这些规则系统做出评断。一门语言中的语法是另一种规则系统。
规则系统使我们从单纯的相似性中升华出来,根据解释来得出结论。欣顿、鲁梅尔哈特和麦克兰德写道:“人们善于归纳新获得的知识。例如,如果你得知黑猩猩喜欢吃洋葱,很可能会提高你对大猩猩喜欢吃洋葱的预测的概率。在一个使用分布式表征的网络中,这种概括归纳是自动的。”他们的夸口其实是休谟言论在20世纪的回响,休谟曾说,人们看到色彩和外形都像面包的一个东西,会指望能从中得到类似的营养。但在任何一个人熟悉的领域,这个假设都会土崩瓦解。当然,爱吃洋葱的大猩猩只是一个刻意的例子,但有趣的是,即使是这么一个简单的例子也低估了我们。我知道一些动物学知识,不过对大猩猩不甚了解,但我绝不会提高我对大猩猩喜欢吃洋葱的预测概率。动物能够被交叉分类。它们可以根据家谱和相似性分作不同的类群,如猩猩类,但也可以根据获取食物的专有特定方式分作不同的种群,如杂食动物、食草动物和肉食动物。知道这个原则令我做出如下推理:黑猩猩是杂食动物,它们吃洋葱不奇怪;毕竟我们也是杂食动物,我们也吃洋葱。但大猩猩是食草动物,它们整天大嚼野生芹菜、蓟和其他植物。食草动物往往对它们赖以为食的植物种类十分挑剔,因为它们的消化系统最适合于化解某些种类植物的毒性而不是其他植物的毒性。一个极端的例子是考拉,它们只吃桉树叶子。所以如果大猩猩不吃辛辣的洋葱,我不会感到奇怪。根据我所想到的不同解释系统,黑猩猩和大猩猩可以同属于非常相似的种类,也可以像人和奶牛一样差之千里。
在关联论及其联结浆糊的应用中,物体的表征方式(即作为一组特征)自动地委托系统以一种特定的方式来进行概括归纳(除非用专门提供的相反例子来训练它不做这样的归纳)。我所推销的替代方案是,人们可以在心理上对各种物体予以符号化,而那些符号可以指向我们脑袋里配备的多个规则系统。在人工智能中,这项技术被称为基于解释的归纳;关联论者的设计则被称为基于相似性的归纳。我们的多规则系统包含知识的特点包括组成性、量化性、递归性命题,以及汇集这些命题而形成的关于特定范畴经历的模块或直觉理论,这些范畴包括亲缘关系、直觉科学、直觉心理、数字、语言和法律。第5章我们将探讨其中的一些范畴。
清晰的类别和多个规则系统有什么好处呢?在这个社会性世界中,当讨价还价的双方都指着一个边界模糊类别,一个说某东西在里面,另一个说在外面,这时清晰类别和多个规则系统就可以对此做出评判。人生阶段仪式、法定年龄、证书、许可证以及其他法律文件划出了各方心理上都能明确的清楚界线,这些界线令所有人都知道其他任何人所占据的位置。类似地,全或无规则反对的是步步为营的战术,在这种战术下,人们尽量利用模糊的类别,为自身的利益一次又一次地发起边界争执。
规则和抽象类别也有助于处理自然界的事务。它们避开相似性,使我们能够深入,探索出事物运行的隐含法则。因为它们在某种意义上是数字性的,它们使得表征更为稳定和精确。如果你从一盘模拟磁带翻录一连串模拟复制品,那么其质量会随着被复制次数的增加而逐渐下降。但如果你制作一连串数字复制品,最后一个与第一个的质量会一样好。与之类似,在推理链中清晰的符号表征,将符号逐一不落地复制到连续的思维中,形成了逻辑学家们所称的一种诡辩法。
所有的乌鸦都是鸦。
所有的鸦都是鸟。
所有的鸟都是动物。
所有的动物都需要氧气。
无论经验多么贫乏,诡辩法都使思想者充满信心地得出结论。例如,一个思想者得出结论认为乌鸦需要氧气,即使没有人会真这么做来看看会发生什么。即使他从来没见证过任何一个剥夺动物氧气的实验,而只是听到一位可信赖专家的陈述这个思想者仍会得出这个结论。但如果这个推导中的每一步都是模糊的或者概率性的,或者胡乱堆砌了前一步类别成员们的特征,那么稀泥就越和越乱了。上面这个陈述会像第N代的私贩磁带一样充满噪音、杂乱无章或是像糟糕的传话游戏中的最后一声低语那样难以识别。各个文化中的人们都在进行长链式的推理,无法直接观察这些推理所基于的连接是否真实。哲学家们常常指出,科学就是因为这种能力才成为可能。
就像许多围绕心智的问题一样,对关联论的争论往往被当作是先天禀赋与后天学习之间的争论。这几乎不可能想清楚。当然,在关联论者的建模中,学习扮演着极其重要的角色。建模者往往在被我前面提到的那些问题所难住,不得不重新考量时,就会利用隐含层网络的能力,学习一组输入和输出,然后将它们概括运用到新的、类似的情况。经过对通用隐含层网络的辛苦培训,人们有时可以令它做到近似正确的事。但英雄式的灌输式培训自身并不能成为联结浆糊的救世主。这不是因为网络天生结构太少和外部环境输入太多,而是因为原始联结浆糊的动力不足,所以网络的构建往往必须用最差的组合:太多的天生结构结合太多的外部环境输入。
例如,欣顿修改了一个三层网络来计算家庭关系。他本意是想用来展示网络是如何工作的,但其他的关联论者都把它当作是一个真实的心理学理论。输入层有为名字而设的单位,也有为关系而设的单位,比如“科林”和“母亲”。输出层有为与之相关人的名字而设的单位,如“维多利亚”。既然单位和联结都是网络的天生结构,就只有联结权重是习得的了,如果我们确实认为网络回应脑中的一个天生模块,只是为了对谁以一定的方式与一个有名字的人有关系这类问题分别作答的话。这不是一个对一般性亲缘关系进行推理的系统,因为知识被涂抹到了问题层和答案层之间的联结权重上,而不是被储存在能够以不同提取方式获得的数据库中。所以,一旦问题略微变动一下,比如问两个人是什么关系,或者问一个人家庭成员的姓名和关系时,知识就没用了。在这个意义上,模型就有了太多的天生结构,成了为某个特定测验量身定制的了。
在培训了其模型在一个小规模自制家庭中的关系后,欣顿请大家注意,这个模型能概括归纳出新的几对亲属关系。但仔细研究他的研究结果后,我们发现,这个网络需要对可能的104对中的100对加以学习,才能够概括归纳出剩余的4对。而培训过程中这100对的每一对都需要被注入网络达1500次之多(培训课程共计150000次)!很显然,孩子们学习家庭亲属关系的方式肯定与此大相径庭。这个数字对于关联论者的网络来说比较普通,因为它们并不用规则的方式来获得解决方案,而是需要将绝大多数例子生敲硬塞进网络,并只在例子之间进行插补。每种大体不同的例子都必须列入培训的内容,否则网络就会胡乱插补,就像统计学家们讲述的猎鸭故事一样:一人射得高了一米,第二个射得低了一米,第三个大声喊:“我射中它了!”
为什么要把联结浆糊放到强光下这么审视呢?当然不是因为我认为神经网络建模不重要——恰恰相反!若没有它,我对于心智如何运作的整个理论体系将像空中楼阁一样摇摇欲坠。也不是因为我认为这种网络建模只是将构建“小幽灵(后台程序)”和数据结构的工作从神经硬件工作中外包了出去。许多关联主义者模型为心智运算的最简单步骤所能取得的成就提供了意外的洞见。但我确实认为关联主义论调过于泛滥了。因为网络被宣传为柔性的、平行的、类推的、生物性的以及连续的,所以它们得到了讨喜的内涵和广泛的拥趸。但神经网络并不创造奇迹,它们不过是在执行一些逻辑和统计运算。选择输入表征、网络数量、每个网络的联线方式,以及数据路径和连接这些路径的控制结构,比起联结浆糊组件的通用能量来说,神经网络更多地解释了怎样令一个系统变得智慧。
但我的主要意图不是为了证明某种模型不行,而是为了展示心智能够做什么。本章的目的是给您一个粗略的认识,我们的心智是由什么做成的。思维与思考不再是“小幽灵(后台程序)”般的谜团,而是可以研究的物理过程,在解释思维与思考时,不同理论的优点、缺点可以被检验和辩论。我觉得,这尤其说明了古老的关联学说的缺陷,因为它们昭示了我们日常思考的精确性、微妙性、复杂性和开放性。人类思维的计算能力有着真实的后果。它被很好地用于我们对于爱、正义、创造性、文学、音乐、亲缘关系、法律、科学以及其他一些活动的能力,这些我们在后面几章将要继续探讨。但在这之前,我们还必须回到在本章开篇时提到的另一个问题。
意识的3种含义
意识是怎么回事?什么令我们确实感受到牙疼的痛苦或看到天空的蓝色就认为它是蓝色?心智计算理论即使有了完整的神经科学基础,也给不出一个清楚的回答。符号蓝色是被铭刻上的,目标状态在变化,一些神经元被激活了……那又怎样?意识不仅是一个问题,更是一个奇迹,一直在困扰着许多思想家们:
萨缪尔·约翰逊
物质与物质的差异只是在于形式、体积、密度、位移和位移的方向,但无论这些怎样变化或组合,又怎能得到意识呢?是圆的还是方的、是固体还是液体、是大的还是小的,移动得快还是慢,是一个方向还是另一个,这些是物质存在的形式,都完全不同于思考的性质。
汤姆斯·赫胥黎
意识状态是出自激活神经组织的结果,这是多么令人惊叹啊,就像阿拉丁一摩擦他的灯,神灵就会出现一样不可思议。
柯林·迈克基恩
不知为何,我们感觉大脑实体中的水被酿成了意识的美酒,但我们对这种转化的本质一无所知。神经传递就好像是用错误的材料把意识带到了这个世界。
意识为我们提供了一个又一个疑惑。一次神经活动怎么能让意识出现?意识有什么好处?也就是说,对红色的原始感受在我们神经电脑中连续相撞传递的系列事件中增加了什么?将某些东西感知为红色的任何效应——注意到它不同于各种绿色,大声说出“那是红色的”,追忆起圣诞老人和消防车,变得躁动不安——这些可以通过一个长波光的感知器所触发的纯粹信息处理而实现。意识是符号挥之不去的无用副效应吗,就像计算机中闪烁的小灯或伴随闪电的雷声?如果意识是没用的——没有它的生物体可以与有它的生物体一样应付这个世界——为什么自然选择会钟情于这个有意识的生物呢?
意识成了每个人都想求解的难题。几乎每个月都有一篇文章宣称,意识最终得到了解释,往往也伴随着神学家和人文主义者们的冷嘲热讽,他们会给科学划出边界,而科学家和哲学家也对之没有善评,他们认为这个主题太过主观或混乱不清,因而无法研究。
不幸的是,人们写的有关意识的许多东西几乎与意识本身一样令人费解。斯蒂芬·杰·古尔德写道:“在生命之树上,人类只是一个很小的细枝……但我们这一枝已经发展出自寒武纪大爆发以来所有多细胞生命历史中最杰出的新特质。我们发明了意识,以及意识所带来的从哈姆雷特到广岛的后遗症。”古尔德认为,除人类外所有其他动物都不具有意识,其他一些科学家则认为,有一些动物也有意识,并不是所有的动物都没有。许多人测试意识的方式是看一个动物能否认出镜子中的影像是自己,而不是另一个动物。以这种标准来看,猴子、小黑猩猩、老黑猩猩、大象和人类的婴儿都是无意识的。唯一具有意识的动物是大猩猩、猩猩、壮年期的黑猩猩以及按照斯金纳和他的学生罗伯特·爱泼斯坦(Robert Epstein)所认为的适当训练的鸽子。其他一些人则比古尔德还要严格:并不是所有的人都是有意识的。朱利安·詹宁斯宣称,意识是一项晚近的发明。早期文明中的人们,包括古希腊的荷马和旧约中的希伯来人,都是无意识的。丹尼特对此言论较为认同,他认为意识“在很大程度上是一个文化演变的产物,它是在幼年的训练学习中赋予大脑的”;他认为意识是“一个复杂的谜米”。谜米是道金斯用来表示文化的蔓延性特点的术语,比如,朗朗上口的顺口溜或最新的时尚热潮。
关于意识这个主题的一些事情使得人们像《爱丽丝镜中奇遇》(Through the Looking Glass)的白女王一样,相信早餐前6个不可能实现的愿望。大多数动物真的是无意识的吗?梦游者、僵尸、机器人,它们没知觉吗?一只狗有感觉吗,有感情吗,有热情吗?如果你刺它们,它们会不会觉得痛?摩西真的尝不出盐味,看不到红色或体会不到性的快感吗?孩子们学习变得有意识是和他们学会帽檐朝后倒着戴棒球帽一样的吗?
写关于意识的作者们并没有疯,所以他们在用这个词的时候脑子里一定有些不同的东西。对于意识概念最好的评述是伍迪·艾伦在他虚构的大学课程目录中所写的:
心理学概论:人类行为理论……心智与身体之间可以分割吗,如果可以,拥有哪个更好?……将重点探讨对于意识而不是无意识的一项研究,其中对于如何保持有意识具有许多有帮助的提示。
言语幽默用一个语意含混的单词中的一个含义吊起读者的胃口,然后用另一个含义作为包袱把读者逗乐。神学家们也拿这个含混的单词——意识来做文章,不是当作笑话,而是作为诱饵调包法:读者被引导期待对这个单词在一种意义上的一种理论,最难解释的一种意义,但却被给了另一个意义上的一种理论,在最容易解释的一种意义上的。我不想纠缠于概念,但谈到意识,我们别无选择,只能从解开它的含义开始。
有时,“意识”被看作是“智力”的一个高雅代名词。例如,古尔德就以这种方式使用它。但还有3种更加专门的含义,语言学家瑞·杰肯道夫和哲学家耐德·布洛克做了很好的区分。
意识的第一种含义是自我认识。在一个智能生命所能拥有的、有关各种人和物体的信息中,有一些信息是关于这个生命自身的。我不仅能感受到疼痛和看见红色,我还可以在脑子里自言自语:“嗨,我,史蒂芬·平克,就在这儿,我感受到疼痛,看见了红色!”奇怪的是,这个单词的这个深奥含义正是大多数学术讨论所考虑的一个含义。意识通常被定义为“构建一个包含自我世界的内部模型”,“反思自身的理解模式”,以及其他一些过度自省,但这却与通常人们所理解的意识(活着、醒着、晓得)毫无关系。
自我认识,包括使用镜子的能力,并不比认知和记忆中的其他问题更加神秘。如果我有一个关于人的心智数据库,它一定包括一个关于我自己的条目。如果我能学会举起胳膊,伸着脖子看到我后背上的一块平时看不到的区域,为什么我不能学会举起镜子,在镜子里看我前额上的一块平时看不到的地方呢?而且获得关于自我的信息也很容易建立模型。任何初级程序员都能够就此写一小段儿软件来测试、报告甚至修改它。制造一个能在镜子中认出自己的机器人,并不比制造出一个能够认出任何其他东西的机器人困难多少。对于自我认识的进化、孩童自我认识发展以及自我认识的好处(更有趣的是其坏处,我们将在第6章中看到),确切地说,是一些值得提出的问题。但自我认识是认知科学中的一个日常命题,不是水变成酒的怪论。由于要写些关于自我认识的东西实在太容易了,作家们自然能够信口夸耀他们的“意识理论”。
意识的第二种含义是信息获取。我问:“一分钱买你的想法,卖吗?”你回答我,关于白日梦的内容,当天的计划,你的疼和痒,你面前的颜色、形状和声音。但你没法告诉我,关于你胃分泌的酶,你当前心律和呼吸频率,你脑中将视网膜的二维影像恢复为三维形状的计算,你说话时单词排列的句法规则,你能捡起一块玻璃的肌肉收缩次序。这说明,神经系统中所有的信息处理归为两类。一类包括视觉产物和短期记忆的内容,获取这类信息可以通过以言语报告、理性思维和深思熟虑的决策过程为基础的系统。另一类包括自主(关键的)反应,视觉背后的内部计算,语言和运动,还有被压抑的欲望或记忆(如果有的话),这些信息无法通过上述系统获得。有时信息可以经过第一类再到第二类,或者相反。我们在初次学习如何使用变速杆的时候,每个动作都需要经过思考,但经过练习,这项技能就变成自动化的了。通过高度集中注意和机能反馈,我们能够集中到一个隐含的感觉,如心跳。
这种意义上的意识当然也包括弗洛伊德对意识和无意识的区分。至于自我认识,没有什么不可思议的或者神秘的。的确,有机器间的明显类比。我的电脑可以获得关于打印机是否运转正常的信息(在这个特定含义上,它“意识”到了),也能够打印出一条提示出错误信息——打印机没有响应。但它无法得到打印机为什么不运转的信息,从打印机连到电脑的电缆所携带的信号并没有包括这个信息。而打印机内部的芯片却得到了这个信息(从这个意义上,它意识到了);打印机不同部分中的传感器将信息传到芯片,如果墨粉少了,芯片可以亮黄灯,如果卡纸了,芯片亮红灯。
最后,我们要谈一谈意识所有含义中最有趣的一个——感知力:主观体验,可感觉的知晓,原始感受,第一人称现在式。“会是什么样的感觉?”“如果你问那你就永远也不会知道。”伍迪·艾伦的玩笑正是利用了这个含义上的意识和弗洛伊德意义上的意识之间的差异,让读者通过心智中深思熟虑的语言运用部分会心地得到了这个差异的信息。这种感知力,才是使意识似乎真正像一个奇迹的含义。
本章的剩余部分是关于后两个意义上的意识的。首先,我将讨论信息获取,看看不同的心智部分能够获知哪种信息。从这个词的这个含义上,我们真的就快要弄明白意识是如何在脑中运作的,在心智计算中它的作用,它被设计以符合的工程设计具体规格(以及使其变成这样的进化压力),还有这些规格是如何解释意识的主要特征的——感觉知晓、集中注意、情绪色彩和意愿,围绕这些问题,有很多颇有一些有趣的东西值得讲述。最后,我们将谈到感知力的问题。
信息获取意义上的意识的四个特征
有一天(很可能这一天很快到来),我们将会很好地理解脑中的哪些东西负责信息获取意义上的意识。例如,弗朗西斯·克里克(Francis Crick)和克里斯托弗·科克(Christof Koch)已经开始列出我们应当寻找的直接评判标准。显而易见,来自感觉和记忆的信息只引导清醒着的动物的行为,而不是被麻醉的动物的行为。因此,当动物清醒和处在无梦睡眠或是失去知觉的状态时,它们脑部结构的活动是有差异的,而在这些脑部结构活动差异中,我们就能找到信息获取意义的意识所需的一些神经基础。大脑皮质的较低层次就很可能是承担着这个职责的。此外,我们还知道,关于物体被感知的信息是散布到大脑皮质的许多部分的。因此信息获取要求有一个机制,可以将空间上分散的数据聚合在一起。克里克和科克认为,神经元触发的同时性或许是由从皮质到丘脑这个大脑中心站之间的环所导致的。他们还指出,自发的、计划的行为需要额叶的活动。因此,信息获取意义上的意识也许可以根据大脑不同部分到额叶之间运行的纤维束的解剖构造而得到确定。无论他们是否正确,他们已经证明问题能够在实验室内处理。
在我们对大脑计算的理解中,信息获取意义上的意识同样只是一个问题,而不是一个谜。回想一下我们识别叔叔的产出系统。它有一个公共的短期内存记忆:一个系统中所有“小幽灵(后台程序)”都能看到的工作空间或公告板。在系统一个分隔开的部分有另一个更大的信息储存地,那是一个长期记忆内存,那里的信息“小幽灵(后台程序)”读不到,除非一些信息片段被复制到短期记忆内存中。许多认知心理学家指出,在这些模型中,短期记忆内存(公共公告板,整体工作空间)的作用就像意识一样。当我们感知到了一段信息,心智的许多部分就能据此采取行动。我们不但看到了面前的一把尺子,还能够描述它,接近它,推断它能支撑一个窗口,或是数它的刻度。正如哲学家斯蒂芬·斯蒂奇(Stephen Stich)所指出的,有意识的信息在逻辑上是混杂的;它令许多信息处理行为者都能获得它,而不是只钟情于唯一一个。纽维尔和西蒙在理解人类解决问题方面取得了进展,他们的方法只是请人在思考解决难题时说出他的想法。他们用一个产出系统很好地模拟了心智活动,这个系统中公告板的内容一步一步对应了那个人报告的他下意识思考的内容。
信息获取的设计规格,以及形成这种规格的自然选择压力,也变得越来越清晰了。一般性原则就是,任何信息处理器都必须只得到限量的信息,因为信息也有成本,就像它有收益一样。
信息的第一个成本是空间:即容纳信息的硬件。对电脑所有者来说,决定是否投资增加更多内存是很明显的限制。当然,大脑不像计算机,有着海量的平行硬件供存储使用。有的理论学者推测,大脑能够预先储存所有的可能情况,思维可以被简化成一步式的模式识别。但组合爆炸式数学让我们想起了MTV的老旧口号:只是太多还不够。简单的计算表明,人类可掌握的句子、句子含义、国际象棋、旋律、可见的物体等等的数量会超过宇宙中粒子的总数。例如,国际象棋中每个点可以有30~35步可能的下法,每种下法会有30~35步可能的应对方法,这样一个回合就有约1000种可能的下法。通常一局国际象棋要持续40回合,这可能会产生10120种不同的棋局。在可见的宇宙中大约有1070个粒子。所以没有人能通过记住所有的棋局,然后识别出每一步下法来下国际象棋。对于句子、故事和旋律也是如此。当然,一些组合是可以被储存的,但很快要么你耗尽了脑空间,要么你开始添加模式得到一些无用的四不像的拼凑。信息处理器需要的不是储存天文数字的输入输出或问题及其答案,而是需要规则或算法,一次处理一小组信息,只在需要的时候才计算出答案。
信息的第二个成本是时间。正如一个人不能在远小于宇宙空间的大脑中储存所有的国际象棋棋局一样,一个人也不能在远短于宇宙寿命(1018秒)的一生中玩尽所有的棋局。用几百年解决一个问题实际上等于根本没有解决问题。事实上,对一个智能行为者的要求还要更加严苛。生命是一连串的截止日期。感知和行为都在实时发生,比如猎杀一只动物或在谈话中坚持己见。既然计算本身要花费时间,信息处理就可能是问题的一部分,而不是解决方法的一部分。设想一下,一个徒步旅行者计划在天黑前以最快的路线赶回宿营地,他却花了20分钟才找到一条只节省10分钟的路线。
信息的第三个成本是资源。信息处理需要能量。对于任何曾用降低处理器速度和限制磁盘获取信息等方式来延长笔记本电池使用时间的人来说,这一点显而易见。思考也是昂贵的。对大脑活动的功能照影技术(PET和MRI)基于这样的事实:脑组织的工作需要更多的血液并耗费更多的葡萄糖。
任何由物质组成的、实时工作的,并受限于热动力学定律的智能行为者都必须限制对信息的获取,只许获取与当下问题有关的信息。这倒并不是说,行为者应当戴上眼罩或是成为失忆症患者。在某个时候,与某个目的无关的信息可能在另一个时候与另一个目的有关,因此信息必须加以排序。总是与某种计算无关的信息应当被永久封存,远离这种计算。只要有关信息能被提前预测到就可以,有时有关、有时无关的信息应当在其有关时能够被获取。这种设计规格解释了为什么信息获取意义上的意识存在于人类心智中,并使我们能够理解其中的一些细节。
信息获取意义上的意识有4个明显的特征。第一,我们能不同程度地感知到丰富的感觉:眼前世界的颜色和形状,包围我们声音和味道,皮肤、骨骼和肌肉所承受的压力和疼痛。第二,这些信息的一部分会进入到注意的探照灯范围之内,在短期内存记忆中转进转出,以供我们深思熟虑。第三,感觉和思维伴随着情绪上的好恶:愉快或不愉快,有趣或令人厌恶,让人兴奋还是使人镇定。第四,一个执行者——“我”,似乎会做出选择,启动行动的按钮。这每一个特征都抛弃了神经系统中的一些信息,界定了信息获取意义上的意识的路径。每一个特征都在思维和感知的适应组织中扮演了一个清晰的角色,帮助我们做出理性的决策和行动。
信息获取意义上的第一个特征是在感觉领域。杰肯铎夫在回顾了各个模块所用的心智表征层级后,提出了这样的问题:哪一层级对应现在时态知晓的这个广阔领域?例如,视觉加工的过程是从视网膜的视杆细胞和视锥细胞开始,经过表示边缘、深度和平面的中间层级,再到识别我们面前的物体。语言理解的过程是从原声到音节,经过单词和短语的表征,再到对信息内容的理解。
杰肯铎夫观察到,信息获取意义上的意识似乎作用于中间层级。人们感知不到感觉的最低层级,我们在生活中做不到对每一片蛋糕碎屑和每一口石笋浓汁都进行普鲁斯特式的沉思冥想。实际上,我们看不到阳光下煤块的亮,屋内雪球的暗,电视屏幕上“黑色”区域的灰绿,或是一个移动正方形投映在我们视网膜上的橡胶状平行四边形。我们“看见”的是一个经过高度处理过的产物:物体的表面,它们本来的颜色和质地,它们的深度、斜度和偏度。在到达我们耳朵的声波中,音节和单词被扭曲和杂糅在一起,但我们听到的不是那条无缝的声音缎带,而是“听到”一连串界定清晰的单词。我们的直接感知也没有专门涉及最高层级的表征。最高的层级——世界的内容或是信息的要点——一般会在一个经历后在长期记忆内存中待很长的时间,但一旦经历被打开,我们就会感知到视觉和声音。在我们看到一张脸时,我们不只是抽象地想到“脸”,我们还会在记忆中搜索它的阴影与轮廓。
对中间层级的感知的优势不难发现。随着视觉条件的变化,我们仍保持对形状和亮度恒常的感知,能够跟踪到物体内在的特质:在我们转动煤块或是增加光亮度时,我们感知的煤块本身形状未变,也仍是黑色的,对它的体验也与以前一样。感知的低层级不需要,高层级还不够。这些恒常性背后的原始数据和计算步骤都被封存于远离我们的感知觉中,无疑是因为它们运用的是光学的永恒定律,既无须从其他部分的认知中获取意见,也不会给其他认知提供任何洞见。计算的产物远在物体被识别确定之前就被广为运用了,因为一个简洁的背景环境还不足以让我们环游世界。行为是一场短兵相接的游戏,谋划下一个步骤的决策过程必需物体表面的几何和构成属性。与之类似,我们在理解一个句子时,追溯声波的嘶嘶嗡嗡声不会有任何帮助;它们必须被解码为音节,才能在心智字典中找到有意义的东西与之匹配。语音解码器运用了一种终身有效的特殊钥匙,并被允许自行其是,不受来自心智其余部分中好事者的打扰。但正如视觉一样,心智的其他部分也不会满足于仅有的最后产物——在此例中,即讲话者的要点。对单词和音调的选择也携带着信息,使我们能够听出弦外之音。
信息获取意义上的第二个特征是注意力聚光灯。它的作用是,完美地说明了无意识的平行处理只能走那么远(其中许多输入被同时处理,且每个都是用自己的迷你处理器)。一个早期阶段的平行处理尽其所能传递了一个表征,而在这个表征中,一个更拥堵和缓慢的处理器必须选择其所需的信息。心理学家安妮·特雷斯曼想出几个例子,现在成为对无意识处理和有意识处理在哪里交接的经典说明。人们看到展示的色彩形状,像一些X和O,并被要求如果看到某个目标就按某个按钮。如果搜寻目标是一个O,就会在一大堆X中显示一个O,这人会立刻做出反应。无论有多少个X,人们说那个O就是自己冒了出来。(冒出来,正如这种效应现在的称谓,是表示无意识平行处理的一个很好的符号)与之类似,一大堆红色的O中会自动冒出一个绿色的O。但如果实验者请这个人找到一个绿色的O,而这个字母位于一大堆混杂的绿色的X和红色的O之中,这个人就必须下意识地一个字母一个字母去搜寻,看看它是否符合既是绿的又是O的标准。这项任务就像儿童漫画《威利在哪里?》中描绘的一样:穿着红白条纹衫的英雄隐藏在一大群穿着红白条纹衣服的人当中。
到底发生了什么?设想视域中散布着好几千个小处理器,每个处理器都检查一种颜色或一个简单形状,如一段曲线、一个角度或一条线,当它们出现在这个处理器位置的时候,它就会被检测出来。一组处理器的输出看上去像这样:红红红红绿红红红,等等。另一组的输出像这样:直直直弯直直直,等等。添加在这些处理器上的是一层落单者出局的监测器。每一个都横跨一组线或颜色的监测器,并在视域上将那些在颜色或轮廓上不同于周边的点做上“标记”。被红色围绕的绿色需要一个特殊小旗。从众多红色中看到绿色只需要用小旗标记那一点,这是一项即使是最简单的“小幽灵(后台程序)”也能做到的任务。一个X中的O也可以用同样的方式来检测到。但数千个守望在这片视域内的处理器却太笨了,算不出这个特征的逻辑乘积:一小片既绿且弯的,或是既红且直的。这种逻辑乘积只有通过一种程序设计的逻辑机器才能检测到,这种机器通过一扇狭窄可移动的窗户来看一部分视域,并将其答案传递到其余的认知棱块。
为什么视觉计算被分为一个无意识的平行阶段和一个有意识的序列阶段?因为逻辑乘法是组合的。不可能将逻辑乘积检测器散布到视域的每个位置,因为有太多种逻辑乘积了。有100万个视觉位置,那么所需的处理器数目就是100万再乘上逻辑上可能的乘积:我们能区分的颜色数目乘上轮廓数目乘上深度数目乘上移动方向数目再乘上速度数目,这是一个天文数字。平行的、无意识的计算在它给每个位置做了颜色、轮廓、深度和位移的标签之后,就停止工作了;接下来其组合就需要一次一个位置地进行有意识的计算。
这个理论做了一个令人惊讶的预测。如果有意识的处理器集中于一个位置,其他位置的特征就应当脱开粘连,自由漂浮。例如,一个没有专门留神一片区域的人将不会知道它是否包含着一个红X和一个绿O,或是一个绿X和一个红O——颜色和形状应当漂浮在分开的平面,直到有意识的处理器在一个特定的位置将它们聚合在一起。特里斯曼发现,情况就是这样。当人们被几种颜色的字母分神时,他们能够报告字母也能够报告颜色,但他们将颜色和字母结合在一起报告时就出错了。这些错觉组合是对无意识视觉计算的有力证明,在日常生活中这也并不罕见。当人们心不在焉地或用眼睛余光看单词时,这些字母有时会自己安排布置。一位心理学家说,当他走过一台咖啡机时,心里很奇怪为什么它宣称售卖“World's Worst Coffee”(世界最差咖啡),于是他开始研究这种现象。当然那个标志实际上写的是“World's Best Coffee”(世界最佳咖啡)。一次我驾车经过一个户外广告牌,看到上面竟然在给一个“brothel”(妓院)做广告,当然定睛再一看实际上是“Brothers' Hotel”(兄弟宾馆)。当信手翻杂志时,我有一次看到一个标题是关于“anti-semitic cameras”(反犹太人照相机),它们实际上是“semi-antique”(半古董)。
有一些瓶颈既从人的内部也从外部阻碍了信息的流动。当我们试着取回一个记忆时,条目会一次一个地滴入到感知中,如果信息有些陈旧久远或是不同寻常,还往往会伴随着令人苦恼的延迟。自从柏拉图引用了软蜡的比喻后,心理学家们推测,神经介质一定是天然就抗拒保留信息,除非信息被关起来,否则它会随着时间逐渐消退。但大脑可以记录持久的记忆,比如爆炸性新闻的内容以及人们听到这条新闻时的一些时间和地点细节。因此,神经介质本身无须被指摘。
心理学家约翰·安德森反向设计了人类记忆的取回模式,显示出记忆的限制并不是一个软弱储存介质的副产品。正如程序员们喜欢说的:“它不是一个瑕疵,而是一个特点。”在一个优化设计的信息取回系统中,一个条目应当只在它的作用超过取回它的成本时才被恢复。任何使用过计算机化图书馆提取系统的人都会看着蜂拥而来、溢满屏幕的标题很快懊悔起来。尽管我们人类断言自己提取检索的能力有限,但一个人类专家从包含内容中确定一条信息的表现远超过任何计算机。当需要寻找关于一个不熟悉领域的主题的文章时,我不用图书馆的计算机,我会给在那个领域工作的朋友发封电子邮件。
一个信息提取系统怎么才算被优化设计了?它应当在被要求时提供最有可能有用的信息。但那怎么就能提前知道呢?这些概率可以根据关于哪种信息最可能需要的一般法则来做出预测。如果这种法则存在,我们应当能够在通用信息系统中而不只是人类记忆中找到它们。例如,这种法则应当在从图书馆借的统计书上或者在计算机提取的文件中能看到。信息科学家们已经发现了一些这样的法则。过去已被需要过许多次的一条信息比过去只被需要很少次的信息,更有可能在当前被需要。一条最近被需要的信息比一段时间前被需要的信息,更有可能在当前被需要。因此一个优化的信息提取系统应当偏向于提取那些经常碰到和最近碰到的条目。安德森指出,人类记忆的提取正是这么做的:我们对通常、最近事件的记忆比对罕见、过去久远事件的记忆要更好。他还发现了记忆研究中4条其他的经典现象,都独立地符合计算机信息提取系统优化设计的标准。
信息获取意义上的意识的第三个显著特征是对经历的情感着色。我们不但登记事件,还把事件登记作愉快的还是痛苦的。这使得我们在当前和以后采取行动来经历更多的前者和更少的后者。这些一点儿都不神秘。从计算上讲,表征触发了目标状态,反过来触发了信息搜集、问题解决和行为选择的“小幽灵(后台程序)”来计算如何获得、躲避或修改有关的情势。从进化上讲,对于为什么寻觅我们所寻觅的目标,很少有什么神秘之处——例如,人们为什么更喜欢与一个有吸引力的伴侣做爱,而不是拿着条湿鱼在肚皮上拍打。成为欲望目标的东西,是那种一般来说会提高我们在进化的环境中生存和繁衍概率的东西:水、食物、安全、性、地位、对环境的掌控以及孩子、朋友和亲属的幸福。
信息获取意义上的意识的第四个特征是将控制汇集为一个执行过程:我们作为自我、意愿、“我”所经历体验的一些事情。自我的概念一直遭到非议。据人工智能先驱马文·明斯基说,心智是一个行为者的社会,它是一个半成草图的大集合。丹尼尔·丹尼特补充道,“寻找大脑里白宫椭圆办公室的总统是一个错误”。
心智社会是一个绝妙的隐喻,我在解释情感时将充满热情地使用它。但如果它取缔了大脑中负责一次为一个行为者提供导引或空间的任何系统,那么对这个理论的使用可能就走得太远了。可以用一套主要决策规则将大脑的行为者很好地分层次组织成为嵌套式子程序,而一个计算“小幽灵(后台程序)”、行为者或好的小人则端坐于命令链条的顶端。它不是机器中的一个神灵,只不过是另一组如果-那么规则或是一个将控制推给下一层时嗓门最大、速度最快或最强壮的行为者的神经网络而已。
我们甚至已经有了关于容纳决策电路的大脑结构的线索。神经科学家安托尼奥·达马西奥(Antonio Damasio)指出,前扣带沟的损伤会使患者处于一种似乎很警觉但却令人奇怪的无反应状态,这个大脑区域从许多更高知觉区域获得输入并连接到更高层的运动系统。这个报告让弗朗西斯·克里克宣布,意愿的位置已经被发现了,当然,他只是半开玩笑地这样表示。几十年来,神经科学家已经知道意愿的履行——形成和执行计划——是额叶的一项工作。一个令人难过但是很典型的例子是,一个15岁的男孩,他的父亲打电话来向我询问信息,这个男孩曾在一次车祸中额叶受损。这个男孩会在冲澡时在浴室待几个小时,无法决定什么时候出来。他也离不开家,因为他总是折返回房间去确认他是否已经关了灯。
为什么一个心智行为体的社会需要一个顶端的执行官呢?原因就像那句古老的意第绪语格言一样清楚,“你只有一个屁股,不能同时在两个婚礼上跳舞”。无论我们心智中有多少个行为体,我们每个人只有一个身体。对每个主要部分的保护职责只能被授予一个管理者,由它从彼此竞争的行为体中选择一个方案。眼睛只能一次关注一个目标;它们不能固定在两个感兴趣目标的中间空白地带,或者在二者的拔河中两边摇摆。四肢的设计是为了使身体沿着一条路线运动,从而达到一个心智行为体的目的。而替代方案,一个真正的平等主义的心智社会,就像那个精彩的搞笑电影《我的全部》(All of me)中描绘的那样:莉莉·汤姆林扮演一个得疑病症的富家女继承人,她雇用了一位印度教大师,将她的灵魂转移到另一位不想要自己灵魂的女人身上。在转移过程中,一个盛着她灵魂的夜壶掉出窗外,砸到了一个路人的脑袋上,路人由斯蒂夫·马丁(Steve Martin)饰演。汤姆林的魂灵盘踞在马丁的右半个身体上,而马丁还能对左半个身体保持控制。他走起路来歪歪扭扭,他的左半边刚向一个方向昂然迈出一步,他的右半边又接着向另一个方向轻移一个莲步,同时还跷着兰花指。
信息获取意义上的意识就要被揭开面纱了,那么感知力意义上的意识呢?感知力和信息获取也许是一枚硬币的两面。我们的主观体验对我们的推理、谈话和行动也是有利的东西。我们并不只是感受到牙疼,我们还抱怨牙疼并冲到牙医那里寻求治疗。
奈德·布洛克试图澄清信息获取和感知力之间的区别,他通过设想那些信息获取会发生而没有感知力的场景(或是相反的情况)来表述其中的差别。一个有信息获取而无感知力的例子,可能会出现在一种被称为盲视的奇怪症状中。当一个人由于他的视觉皮层受损而有一大片盲点区域时,他会断然否认他看到那里有一个东西,但如果强迫他猜测物体在哪儿时,他的表现要比纯靠瞎蒙的好得多。一个解释是,盲视者可以获取目标物体的信息,但感觉不到它们。无论这是否正确,它说明,要区分信息获取与感知力的差异还是可能的。有感知力而无信息获取的情况可能出现在当你全神贯注于谈话中时,突然意识到窗外有一个气锤的声音一直在响,你能听到它但却有一段时间没有注意到它。在注意到噪音之前,你感觉得到它,但却没有获取它的信息。不过布洛克承认这些例子有些牵强,他怀疑,现实中信息获取和感知力一直是在一起的。
因此,我们也许并不需要一个分开的理论来解释大脑中的感知力发生在哪里,它怎样符合心智计算或是它为什么进化。它似乎是某种信息获取的额外特质。我们确实需要的是这样一种理论,它能解释一个关于感知力的主观特质是怎样从单纯的信息获取中孕育出来的。那么,为了使这个讲述比较完整,我必须提供一个理论能够处理下面这样的问题:
● 如果我们能像一个强大的计算机程序一样复制人脑中的信息处理模式,那么运行这种程序的计算机是有意识的吗?
● 如果我们用这个程序来训练很多人,比如说像中国那么多的人口,让他们记住这些数据并依此行动,那会怎么样?那将会有一个巨大的意识盘旋于中国上空,而与十几亿人的个体意识分隔开来吗?如果他们的大脑正处在令人苦恼的疼痛状态,会有一些实体在真正承受痛苦,即使每个人都在欢欣鼓舞和无忧无虑吗?
● 设想你脑后部的视觉接收区域接受手术,与其余大脑区域分割开来,但它仍在你的头盖骨中保持鲜活状态,接收来自眼睛的输入信息。用任何行为标准来衡量,你都是盲人。在你的脑后部是有一个静默无声但完全清醒的视觉意识被封存在那里吗?要是把它取出来,活着放到一个盘子里会怎样呢?
● 你对红色的体验和我对绿色的体验是一样的吗?当然,像我一样,你可能给草冠以“绿色”的标签,给西红柿冠以“红色”的标签,但也许实际上你看到草时感觉的颜色,就是我如果处在你的位置将会描述的颜色——红色。
● 会有僵尸吗?也就是说,会有一个机器人被装扮成行动像你我一样的具有智慧和情感的人,但在它脑中却“没有一个主人”实际上在感受或看到任何东西吗?我怎么知道,你不是一个僵尸呢?
● 如果有人能把我脑中的状态下载并复制到另一群模块集合中,那它就具有了我的意识吗?如果有人毁坏了原件,而副本仍在过着我的生活,思考着我的想法,感觉着我的感觉,我算是被谋杀了吗?每次柯克船长进入光波传送室,他都会死掉而代之以一个孪生兄弟吗?[8]
● 做一只蝙蝠是什么感受?甲壳虫能享受性爱的愉悦吗?当一个钓鱼人把一个虫子钉在鱼钩上时,它会无声地尖叫吗?
● 外科医生用一个微芯片替换了你的一个神经元,复制了它的输入-输出功能。你的感觉和行为都与以前完全一样。然后他们又替换了第二个,第三个,直到你的大脑逐渐变成了硅质的。因为每个芯片都与神经元做的工作完全一样,你的行为和记忆一点儿也没有变化。你能注意到这个差别吗?这在感觉上是像濒临死亡吗?有某个其他有意识的实体移居到你的脑中了吗?
我对这些问题完全束手无策!我有一些带有偏颇的解答,但根本不知道怎样才能找到一个能自圆其说的说法,而且没有人能知道。心智计算理论提供不了任何帮助,神经科学的任何新发现也不行,一旦你用信息获取和自我认识扫清了对感知力的普遍困惑,剩下的就无能为力了。
一本称为《心智探奇》的书怎么能逃避解释感知力从何而来的责任呢?我想我可以引用逻辑实证主义的教旨,它坚持如果一个陈述不能被验证,那它实际上就是没有意义的。无法估量的事情对我而言,就是在质询那些典型的不可验证的事物。许多思想者,如丹尼特,认为忧虑那些情感只是在标榜一个人的迷惑:感知力体会(或者,如哲学家们所称的,感受性)是一种认知幻觉。一旦我们将之与信息获取意义上的意识在计算上和神经学上的相关物分离出来,就没有什么还需要解释的了。在所有的感知力表现都已经得到说明后,仍坚持说感知力还没有被解释只因为计算中没有任何感知力,这种坚持是不理性的。这就像即使所有的湿的表现都已经说明清楚,仍坚持说湿的还没有得到解释只是因为移动的分子没有湿一样。
大多数人觉得这个论证不大令人满意,但很难找出它错在哪里。哲学家乔杰斯·瑞(Georges Rey)曾跟我说,他没有感知力体验。他在15岁时出了一次自行车事故之后就丧失了这种体验。他坚持说,从那以后他就是一个僵尸了。我估计他是开玩笑,但我无从知晓,因为他就是那样告诉我的。
对感知力存在质疑的人确实言之有理。至少现在,我们对于产生感知力的特别额外成分并没有科学的解释。随着科学的发展,它或许也不存在。这不只是说感知力是根本无法检验的;而且检验它不会对任何事情产生任何影响。我们对感知力的不了解一点儿都不妨碍我们理解心智如何工作。一般来讲,一个科学问题的各部分拼在一起就像一个纵横字谜游戏。要解构人类进化,我们需要人类学来找到骨头,考古学来理解工具,分子生物学来确定人类始祖与黑猩猩的分开时间,以及古植物学来从化石粉末中重新构建当时的环境。当这个谜的任何一部分还空着时,比如缺少黑猩猩的化石或是不确定当时气候是干燥的还是湿润的,缺口就仍然很大,每个人都亟待填平缺口。但在心智的研究中,感知力漂浮在它自己的平面,远高于心理学和神经科学的因果联系链。如果我们可以追溯所有神经计算理论的发展步骤,从直觉到推理与情绪再到行为,由于缺少一个感知力理论,而欠缺的唯一一件事就是对感知力本身的理解。
我们没有对感知力的科学解释并不代表感知力根本就不存在。我对感知力的确信就像我对任何事的确信一样,而且我打赌你也有同样的感觉。虽然我承认,我对感知力的好奇心可能永远也得不到满足,但我拒绝相信,在我认为自己是有感觉的时候我是迷惑的!(丹尼特对未解释的湿的类推是不明确的:湿本身就是一种主观感觉,所以观察者的不满意正是感知力的问题。)我们不能在会话交流中摒弃感知力或是把它简化到信息处理中去,因为道德推理有赖于它。感知力的概念作为基础令我们确信:酷刑是错误的,肢解一个机器人是毁坏财物,而肢解一个人是谋杀。它解释了为什么一个被爱的人的死去,不仅令我们对自己的失去感到悲伤,而且带给我们无可言状的痛苦,因为我们知道这个人的思想和快乐已经永远地消逝了。
如果你能耐着性子读到本书的最后,你将会知道我对于“感知力之谜”的感觉。但谜终究是谜,它不是一个为科学准备的主题,但却是为了伦理学,为了午夜宿舍“卧谈会”,当然也为了另外一片领域。
在漂浮于太空中的一颗细微沙粒之上,有着一个人的生命残片。锈迹斑斑的是他曾居住过的地方和使用过的机器。由于无人使用,它们将会随着风沙和岁月的侵蚀逐渐分解;考利先生所有的机器——包括那个曾经在他的影像中制作的,那个曾经因爱而鲜活,但现在却孑然躺在那里的……就在暮光之界。