人类大脑是如何工作的?这个问题已经困扰了人类数千年。古埃及人认为“自我”位于心脏,而公元前6世纪和公元前5世纪的希腊毕达哥拉斯学派学者则主张“思想”位于大脑。亚里士多德不同意这个充满争议的理论,并且在公元前4世纪表示,大脑的作用是冷却血液,它并非思想的源头。直到19世纪90年代显微镜和神经染色技术发明之后,1906年诺贝尔奖得主圣地亚哥·拉蒙 –卡哈尔(Santiago Ramón y Cajal)提出“神经元学说”,认为大脑的功能单元是神经元。18
拉蒙 –卡哈尔只是诺贝尔奖得主中探索大脑深层秘密的众多科学家之一。1963年,艾伦·霍奇金(Alan Hodgkin)和安德鲁·赫胥黎(Andrew Huxley)解释了神经系统发送、连接和保存信息的基本原理,并因此赢得当年的诺贝尔奖。19他们的研究被普遍引用,并且对今天的神经科学产生了巨大的影响。
然而,在这两人于1952年对他们的模型进行描述前,已经有人在尝试使用机器模仿人类的大脑了。1943年,神经学家沃伦·麦卡洛克(Warren McCulloch)与沃尔特·皮茨(Walter Pitts)合作,就神经元的工作方式撰写了一篇重要的论文。20了解这一原理后,他们开始研究如何通过电子器件构建简单的神经元,这就是早期的人工神经网络。到1960年,另外两位研究者,亨利·凯利(Henry Kelley)和阿瑟·布赖森(Arthur Bryson)使用数学的分支学科动态编程,开发出人工神经网络的学习算法。21该算法被称为反向传播。
多年来,反向传播被成功地应用于神经学习,并且催生了20世纪80年代末和90年代初人工智能系统的热潮。由于它能够教会此类人工神经网络几乎任何事情,因此被视为一个诱人的机会和一种强大的能力。1989年,伊利诺伊大学厄巴纳 –香槟分校超级计算研究和开发中心的研究员乔治·塞班科(George Cybenko)得出了一个惊人的发现。22他证明了在数据足够并且神经元数量充足的情况下,神经网络可以使连续数学函数接近任意精度。因此,全球拥有了一个受人脑启发的计算机器框架,虽然笨重而缓慢,但它构建了一个充满希望的数学基础,这样的组合前途无量。
不幸的是,这些早期研究者发现自己领先于他们所处的时代太多。当时的硬件无法有效地支持可以解决焦点问题的大型神经网络。20世纪八九十年代的系统存储量有限,因此无法捕捉或存储大量数据,这进一步加剧了挑战。
由于数据量极少且质量较差,人工神经网络难以观察、学习和行动。在使用反向传播和其他类似的学习算法时,人们遇到了重大挑战。虽然投入巨大,但神经网络往往只能提供次优的解决方案。
这意味着什么?训练一个神经网络就像搜索虚拟场景,在寻找解决方案的过程中会遇到“学习问题”。想象一个具有所有可能性的、场景不断滚动的空间。我们眼前的这个空间组成了山谷、深坑、深谷和山脊。现在,这个场景的轮廓出现了测量误差。我们在深谷中的深度越深,误差就越小。如果我们将一个保龄球放在山峰上的任意一处,保龄球很有可能会滚动、下滑并找到一个低表面(局部最低),但最低的深谷(全局最低)可能距离很远,位于我们想象的场景的另一端。保龄球出发的位置不太好,因此会陷入一些低地,但不是最低的地方。反向传播就常常被局部最低所欺骗、所困住,这一问题为有效降低错误率增加了难度。
实际上,许多在20世纪90年代末和21世纪初尝试语音识别产品的计算机用户提前体会到了这些挑战,而且他们可能没有真正理解语音识别产品背后的技术。虽然这些产品在经过数小时的训练后可以正常运行,还可以在一个完全无声的房间中使用优质且昂贵的麦克风输入指令,但它们称不上真正的语音识别。
如今的情况截然不同。人工神经网络被广泛应用于声音和图像识别。Siri可以在有背景噪声的情况下识别你的语音,而且你可以使用非常便宜的麦克风输入语音指令。亚马逊的Alexa还将识别能力提升到了一个更高的水平。
这一切是如何实现的?为何精度突然提高了?这主要归功于深度学习,具体而言要归功于计算机科学家杰弗里·辛顿(Geoffrey Hinton)的工作。
辛顿生于1947年的英格兰。23他在剑桥大学本科阶段选择的是心理学专业,因为他越来越想探索神经网络,但很快他就意识到,他的教授并没有真正理解神经元的学习或计算方式。虽然当时的科学能够解释电信号从一个神经元转移到另一个神经元的原理,但没有人可以向辛顿准确地解释几十亿次互动如何产生智能。他觉得自己可以使用不断发展的人工神经网络工具更好地理解大脑的工作原理,因此他从1972年开始攻读爱丁堡大学的人工智能博士学位。在之后的研究中,他尝试使用硬件和软件创造互相连接的信息层,就像人类大脑通过密集的神经元网络传递信息一样。20世纪80年代初,随着反向传播算法的出现,辛顿的人工智能研究开始探究人类大脑的工作原理。1992年9月,辛顿在《科学美国人》上发表的一篇文章中首次向大众解释了他的研究工作的核心。24
除了自动编码器和玻尔兹曼机(同样是由辛顿开发的)方面的技术细节之外,他找到了一种优化保龄球在错误场景中位置的有效方法。通过这种方法,保龄球可以自然地滚动到一个合理的低洼位置并停止,错误被大幅减少了。
今天,辛顿作为一名加拿大籍的科学家仍在继续他的研究,同时他还担任搜索引擎巨头谷歌的顾问。他和同事的研究工作引起了人工智能界和大众媒体的关注。2015年《纽约时报》(New York Times)科技版记者约翰·马尔科夫(John Markoff)的报道《人工智能的学习能力匹敌人类》,只是无数此类文章中的一篇。25深度学习似乎真的已经解决了“感知”问题。计算机现在可以比人类更好地识别字符、图像、物体、声音、语言,甚至是视频画面中的物体。
这些进步正在引发硅谷对人工智能和机器人的新一轮关注和投资。机器人侍者、无人机和发明专家纷纷出现——不是作为科幻电影中的角色,而是出现在像劳氏这样的大超市以及底特律大部分出厂的汽车内。根据市场研究咨询机构Tractica的统计,美国2016年的人工智能支出达到6.4亿美元,预计到2025年,这个数字将达到370亿美元。26
然而,正如深度学习一样,人工智能还停留在狭义人工智能(ANI)阶段。通过深度学习等技术,机器越来越熟练,它们将能够代替人类完成以前只有人才能做的工作。
无人驾驶汽车、仓库机器人、军队中的机械骡、半自动武器、手机上的Siri和Cortana、来自IBM的著名计算机棋手“深蓝”或者最近击败世界顶级围棋棋手的AlphaGo算法,我们每天都在接触各种各样的狭义人工智能。
这些不同的狭义人工智能就像是对人类各种能力的放大,但随着时间的推移以及这些狭义人工智能能力的增加,人与机器之间的距离会逐渐缩小。2017年3月,埃隆·马斯克宣布他正在投资成立一家名为Neuralink的新公司。27新公司的目标是创造计算机与人类大脑之间的直接皮层接口。他认为,可以通过将我们的思维与机器的思维合并来避免人类的灭亡。像Neuralink这样的公司并不是孤军奋战,其他硅谷创业公司也开始进入神经科学领域。大部分公司表示,研究的最终目标是实现大脑电子受体,制造出被科幻作家伊恩·班克斯(Iain M. Banks)称为人与机器智能之间的“神经织网”的东西。大部分神经学家都认为我们距离“神经织网”仍十分遥远,但机器智能对人体机能的增强正在发展之中。截至本书撰写之日,人类已经可以通过人工智能、增强现实和传感器技术扩展自己的技能与推理能力了,较常见的有人工耳蜗(一种代替受损耳朵的电子医疗器械)和控制异常心率的心脏起搏器等。虚拟现实眼镜、耳机、传感器以及人工智能感知和控制算法领域的新成果使人类获得了更加“超人”的能力,比如:
. 紫外 /红外视觉:使用人工智能看见光。
. 完美声音记忆:你所听到的每一个声音会被永久编目,并且可以查询搜索。
. 声音三角互证:当你听到巨响或“砰”的一声时,你的眼镜就会显示正在发生的事情。
. 完美图像记忆:当你看到一个牌照时,就能捕捉牌照号码和字母并且可以进行搜索。
. 提示:人工智能始终在你的大脑内提出建议并且添加Fitbit等设备增强身体机能。
.“上帝”视角:卫星照片和全自动小型无人机可以将照片直接发送到你的手机上,就好像你的双眼在移动。
. LIDAR(激光雷达)传感:可以使用脉冲激光测量距离的远程传感技术。
. 能够预测附近任何物体的具体行动与速度。
. 能够看到和探测无线电波:通过划动手势将所感知到的无线电波从以太中抽出,然后进行解码和编目。
. X光视觉:通过自动机器眼看到建筑内部,从而检查是否有漏水等技术故障。
所有这些增强方式仍然属于狭义人工智能。只有当计算机科学与工程设计创新可以控制意图或能够设宏大目标并控制自我意识或“感知”时,我们才能实现广义人工智能(AGI)。
为了成为广义人工智能,人工智能系统需要像人类一样成为通才。它需要通过海量数据进行学习,然后归纳所学到的东西,就好像我们在小时候学会将积木叠在一起、组合在一起或者垫在脚下去拿书架上的书。它需要理解含义和语境、能够合成新知识、有自己的意图并且在任何情况下具备自我意识,这样它才能理解在这个世界上拥有决定权意味着什么。