杰夫·辛顿出生于1947年,是现代神经网络最重要的人物之一。作为一名谦逊的英国计算机科学家,他对其所在领域的发展产生的影响很少有人能企及。他出生于一个数学家家庭:他的曾祖父是著名的逻辑学家乔治·布尔(George Boole),他的布尔代数曾为现代计算机科学奠定了基础。另一位亲戚是数学家查尔斯·霍华德·辛顿(Charles Howard Hinton),因提出“四维空间”这一理念而闻名,阿莱斯特·克劳利(Aleister Crowley)在其小说《月之子》中曾经两次提到了辛顿。
辛顿说:“我一直对人类如何思考以及大脑如何工作很感兴趣。”上学时,一个同学说大脑储存记忆的方式和3D全息图像储存光源信息的方式是一样的。要想创建一个全息图,人们会将多个光束从一件物品上反射回来,然后将相关信息记录在一个庞大的数据库中。大脑也是这样工作的,只是将光束换成了神经元。由于这一发现,辛顿在剑桥大学选择了研究哲学和心理学,之后又在苏格兰爱丁堡大学研究人工智能。辛顿在20世纪70年代中期来到寒冷的爱丁堡,人工智能领域遭遇的首个冬天几乎在同一时期到来。尽管传统人工智能刚刚遭受打击,但辛顿的博士导师仍急于让他远离神经网络。辛顿说:“他一直试着让我放弃神经网络的研究并投入到符号人工智能领域。为了能够有更多时间研究神经网络,我必须不断和他讨价还价。”
辛顿并没有获得其他的支持。学生们认为他是疯了才会在明斯基和派珀特完全否认神经网络后还继续研究。辛顿在爱丁堡期间,明斯基的学生帕特里克·温斯顿(Patrick Winston)出版了一本早期人工智能教材。书中记载着有关神经网络的内容:
许多古希腊人都支持苏格拉底的一个观点,即深奥且令人费解的思想是上帝创造的。如今,对这些漂泊无定的人而言,甚至概率神经元都相当于上帝。很有可能的是,神经元行为的随机性的提高是癫痫病患者和醉酒的人的问题,而不是聪明人的优势。
人们对温斯顿的思想十分不屑,但是他当时对神经网络的类似于宗教信仰般的看法并不是完全错误的。辛顿对人脑必须以某种方式工作这一认识十分欣慰,很明显,这是无法用传统的符号人工智能来解释的。他说:“大多数常识推理都是凭直觉或以类比的方式做出的,其中并不涉及意识推理。”辛顿认为,传统人工智能的错误之处在于:其认为,任何事都是由一系列基本规则和有意识推理组成的。对符号人工智能研究人员来说,如果我们不能理解某一部分的意识,这是因为我们还没有弄懂其背后的推理。
毕业以后,辛顿暂时在英国苏塞克斯从事博士后工作,之后收到了一份来自美国的工作邀请。于是,辛顿打点行装,搬到了加州大学,不久以后,又搬到了卡内基–梅隆大学。在接下来的几年里,他一直积极努力在神经网络领域取得开创性进展,即便到了今天,其成就仍对人工智能的研究产生着影响。
他最重要的贡献之一,要算是他对另一位研究人员戴维·鲁梅尔哈特的帮助,帮助他再次发现“反向传播”流程,这大概是神经网络中最重要的算法,之后他们首次以可信的方式证明,“反向传播”使神经网络能够创建属于自己的内部表征。当输出与创造者希望的情况不符时,“反向传播”使神经网络能够调节其隐藏层。发生这种情况时,神经网络将创建一个“错误信号”,该信号将通过神经网络传送回输入节点。随着错误一层层传递,网络的权重也随之改变,这样就能够将错误最小化。试想一下,有一个神经网络能够识别图像,如果在分析一张狗的图片时,神经网络错误地判断为这是一张猫的图片,那么“反向传播”将使其退回到前面的层,每层都会对输入连接的权重做出轻微调整,这样一来,下次就能够获得正确的答案。
20世纪80年代创建的“NETtalk”项目是“反向传播”的一个经典案例。NETtalk的一个共同创建者特里·谢伊诺斯基将其描述为用于了解电脑是否能够学习大声朗读书面文字的“夏季项目”。该项目面临的最大挑战在于语言一点也不简单。项目刚刚开始的时候,谢伊诺斯基去图书馆借了一本有关音韵学的书,即诺姆·乔姆斯基(Noam Chomsky)和莫里斯·哈雷(Morris Halle)所著的《英语语音模式》。谢伊诺斯基说:“这本书里都是各种事情的规则,例如字母e出现在单词末尾的时候应该如何发音等。书中提到了例外情况,之后又列举了例外情况中的例外。英语就是大量的复杂关联。我们似乎选择了世界上在规则性方面最糟糕的语言。”
一直以来,传统人工智能都在不断尝试将这些单独的例子插入到一个专家系统中。谢伊诺斯基和一位名为查尔斯·罗森伯格(Charles Rosenberg)的语言研究人员决定通过创建一个由300个神经元组成的神经网络来实现这一目标。当时,辛顿正在实验室访问,他建议他们在项目的最开始使用儿童书籍来训练该系统,这本书的词汇量一定要小。起初,这项任务十分艰难,计算机一次只能读一个单词,而他们必须为每个字母都标注正确的音素。例如,字母e在“shed”、“pretty”、“anthem”、“café”或“sergeant”中的发音各不相同。谢伊诺斯基和罗森伯格每次进行说明的时候,他们创建的神经网络都悄悄地调节对每个连接的权重。该系统面临的最大挑战是使机器能够正确发出每个单词中间部分的音节。为了做到这一点,神经网络必须使用中间字母左边和右边的字母给出的提示。
一天下来,NETtalk已经全部掌握了书中的100个单词。这一结果令他们感到震惊。接下来,他们让NETtalk使用有20 000个单词的韦伯词典。幸运的是,词典中的所有音素都已经标注出来了。他们下午把单词输入到系统中,然后就回家休息了。当他们第二天早上回到办公室时,系统已经完全掌握了这些单词。
最后的训练数据是一本对儿童说话内容进行誊写的书,以及一位语言学家记录的儿童发出的实际音素的清单。这就意味着,谢伊诺斯基和罗森伯格能够将第一个誊写本用于输入层,将第二个音素清单用于输出层。使用“反向传播”以后,NETtalk能够学习如何像孩子那样说话。一段NETtalk的录音说明了该系统在这方面取得了飞速的进展。在训练之初,系统只能够区分元音和辅音,其发出的噪声则像是歌手表演前做的发声练习。在训练了1 000个单词以后,NETtalk发出的声音更接近人类发出的声音了。谢伊诺斯基说道:“我们完全震惊了,尤其是在当时计算机的计算能力还不如现在的手表的情况下。”