首页 » 人工智能的进化 » 人工智能的进化全文在线阅读

《人工智能的进化》留给我们的困难

关灯直达底部

在结束这个话题之前,我们仍然需要进一步搞清为什么不能从心理学和神经科学等领域找到我们想要的答案,即人脑究竟是如何工作的。为了说明这一点,我们先用一台简易设备做个思想实验,便于我们进行分析。

假设有一台简易设备连接着发声器、灯泡和键盘。只要有人通过键盘输入一个两位数的数字,这台设备就会嘟嘟作响,并发出亮光。我们把这个机器称作M。我们暂且将M视为一个简单的大脑,键盘是其唯一的感知器官,发声器和灯泡是其唯一的效应器。假设你的工作就是搞清该设备为何能以这种方式发声、闪光。这个实验能够让我们很好地理解智能行为背后的意义,因此非常重要。

现在,我们假设在键盘上按顺序输入数字37、42、53、16和37,M与之对应的行为如下所示:

那么为什么会出现这样的结果呢?

我先给出答案再解释原理。M是一台连接键盘、发声器和灯泡的小型数字计算机:不断地通过键盘接收数字,作为输入;同时根据一款微型计算机程序,发出声音和闪光,作为输出。

控制M的整个程序如下文所示(不想了解该微型电脑程序的读者可以跳过代码后一段内容)。

若想弄清其工作原理,就要注意其使用的是整数运算,Mod指的是除法之后所得的余数。所以37除以10所得的值应该是3,而37与10的Mod值是7。例如,第一次在键盘上输入37的时候,M发出一次响声并闪烁6次。原因在于:根据下文所示,W被设为37,X被设为3,Y被设为3×3+7=16,16除以10等于1,而16与10的Mod值为6。当第二次在键盘上输入37时(第5组数字),结果就是3次响声和2次闪烁,因为这时的U是5(第3组数字),并且因为5>3,Y就被设为5×5+7=32。

所以秘密就在这里。了解这些之后,现在假设对于上文中的程序一无所知,而你的任务就是搞清M的工作原理。

我们现在假设自己是心理学家,对M进行实验,并观察其行为。虽然可能的输入方式不过100种,但即使在这种相对简单的情况下,若M拥有记忆,而且能够根据自己看到的最后一个数字及其他信息决定下一步行动,我们的生活也会变得相当复杂。

为了真正模拟心理学家的工作,我们必须假设参与测试的输入方式要比实际可以输入机器的输入方式少得多。假设进行一场阅读理解测试(第4章将会详细谈到),现在将该测试中的句子数量和被试者一生当中会读到的句子数量进行对比。心理学必须符合行为空间中一个个琐碎细节所组成的证据。

举个例子,我们先将M扩大,使之可以接收10位数字作为输入,不再接收两位数字的输入。那么现在,我们就有1010种(100亿种)输入方式,而不是102种(100种)。我们发现,由于机器有记忆,我们还需考虑机器在上一步和上上一步获得的数据,这样我们就必须考虑到1030种输入方式。如果机器的记忆可以继续向前追溯,那么根据最近的10组输入方式,将有10100个序列样本,远远超过了宇宙中已知原子的数量。

由此可见,我们可以毫不费力地排除大部分可能的刺激和反应。虽然M的感知环境简单,记忆也不复杂,但是却能压垮各种综合测试。

简而言之,这就是心理学的困难所在。

设计出一种通过有效控制各种变量,进而得到有效结果的测试非常困难。假设我的研究对象是张三和李四,他们有着截然不同的生活,看到过截然不同的事物,带着截然不同的信念和目的参与这项测试,那么我该如何控制测试中的变量?众所周知,能够有所启示的心理学试验往往涉及知觉任务,需要在毫秒之内做出反应。由于速度太快,长时记忆这种在张三和李四身上会截然不同的因素,就不那么重要了。如果被试者能悠闲地坐着,并沉思几秒,那么再想要控制所有变量就难如登天了。

由于心理学大多仅能从外部观察研究对象,因此在研究过程中受到极大的限制。虽然其能够呈现外部刺激,并观察到由此带来的外部反应,但也就仅此而已,因为他们认为将活人的脑颅打开,植入电极,观察大脑的反应是极不道德的行为。我们对于大脑功能较为深入的认识主要来自开颅手术——例如切断胼胝体以控制癫痫症的手术——会要求患者描述在大脑某些部位受到刺激时的感受。

不过如今,我们拥有了诸如功能性磁共振成像(fMRI)等新技术,通过微创的方式,不用开颅手术,就能呈现出较为完整的大脑功能画面。我们可以看到,当研究对象在思考身体活动的时候,大脑参与运动控制的部分就会被激活。我们还可以看到,人在说脏话骂人时,其大脑活跃的部分与在谈吐有礼时大脑活跃的部分不一样。神经科学的这些发展令人瞩目,同时也告诉我们,只要给予充足的时间,人类就一定能搞清思维当中的信念与目标是如何决定行为的。

但要解释清楚为何还要对此保持怀疑,我们就要回到M上来。假设神经科学家想要搞清楚M的行为方式,那么和上文提到的心理学相同,他并不知道前文中所示的程序。但是与上文提到的心理学家不同的是,神经科学家可以像使用新技术观察大脑一样,观察M内部的运行方式。

M在实验室里被拆解研究时,神经科学家就会发现M实际上由一些标准电子元件组装而成,依靠电池供电。实验人员输入数字时,M中的一些元件会被激活,其他元件则仍然处于休眠状态,基本不会发光。随着在键盘上输入更多的数字,会开始出现一些奇妙的现象。那么问题来了:神经科学家能够破解M的行为之谜吗?

诚然,M不过就是几个电子元件的组合,其任何行为都取决于这些元件所处的不同状态。如果M是大脑,我们就可以说大脑的状态决定我们的行为;我们所谈论的其他任何话题(信念、目标、情感、心智等)都必须依靠大脑的某种状态才能实现。

但问题是,我们能否通过研究组成M的元件的属性找到M的行为规律。比如,我们可能想得到M的第一位数字,而不是第二位数字的平方。但我们能在这些电子元件中看到吗?

我们有充足的理由相信,不能。我们假设这位神经科学家不但才华横溢,而且非常幸运,他通过长期研究组成M的这些电子元件的状态,提取出了M的整个运行程序。

那么问题又来了。根据上文中程序的第8行和第9行,可以求得M的第一位数字(或者上一个数的第一位数字)的平方,但是该程序可能并不存在于M的内存(记忆)当中。通常,计算机程序总是先被转化成另一种易于硬件执行的形式,用计算机术语来说,上文中的程序叫作源代码。储存在M内存中的转化版本叫作目标代码。即使这位神经系统学家再怎么才华横溢,也只可能获得目标代码。即使有了目标代码,也完全没有可能恢复其源代码。

比如通常来说,在计算机系统中求一个数字的平方并非单一操作,在目标代码的操作过程中可能会大量出现乘法运算。(但是,这要比我们在小学里学的一个数字乘以一个数字的运算高级得多。)

更麻烦的是,对数字进行编码无法像处理电子元件那样简单。操作可能会需要多个元件共同参与,但是并不需要它们在物理位置上彼此相近。实际上,在所谓分布式表征(常用于大脑神经网络模型)当中,我们需要观察众多电子元件的状态,发现其所代表的单个数字的值。但最麻烦的问题是,在分布式表征当中,单个元件有可能代表多个数值。

由此可见,虽然将源代码转化成目标代码相当容易,但是把目标代码转化为源代码就相当于破解一个加密的谜语,难似登天。所以软件公司为保护自己的知识产权,只会出售软件产品的目标代码,因为他们相信,获取源代码这种“反向工程”在技术上非常困难,经济成本也一般令人难以承受。(“开放源代码”的软件产品则恰恰相反,其源代码都被公之于众。)

所以,即使拥有电子探针等最先进的测试设备,神经科学家依然无法还原M的原始程序。虽然能够不受限制地接触所有相关元件,甚至对这些元件的构成了如指掌,但这依然不能保证我们弄清像M的行为方式一样看似简单的事情。

简而言之,这就是神经科学的困难所在。

即使我们能够获取构成人脑的1 000亿个神经元,即使我们能够将这些神经元视为理想的无噪声数字元件,我们也仍然无法搞清自己行为方式背后的原因。如果神经科学家处理的是真正的神经系统的组成,而非电子元件,就会看到大量正在进行当中的化学和生物反应,它们错综复杂、难以梳理。比如,我们是如何记住某种现象的?我们如何根据这些现象得出新的结论?我们如何根据这些结论确定自己的行为?显而易见,这些问题都要比搞清M为何发出三次响声复杂得多。在神经科学领域(即使是最尖端的神经科学),寻求这些问题的答案确实是勉为其难了。

我们只能另寻他法。