首页 » 人工智能:改变世界,重建未来 » 人工智能:改变世界,重建未来全文在线阅读

《人工智能:改变世界,重建未来》第二章 以自主学习的方式创建新的人工智能

关灯直达底部

2014年,在谷歌旗下一家名为“DeepMind”的人工智能公司的办公室里,一台计算机通过玩一款名为《打砖块》(Breakout)的老雅达利(Atari)2600电子游戏消磨时间。该款游戏是两个年轻人在20世纪70年代初设计的,他们就是苹果公司的创始人史蒂夫·乔布斯和史蒂夫·沃兹尼亚克。《打砖块》实际上是乒乓球游戏《乒乓》(Pong)的一个变体。不同之处在于,不是在屏幕上将球挥向另一位玩家,而是对着砖墙击球,将砖块击碎。这款游戏的目标是摧毁所有砖块。

正如我们在上一章中提到的,人工智能玩电子游戏并没有什么稀奇的。艾伦·图灵早在1947年就开发出了首款象棋程序,尽管当时的计算机不能运行这一程序。如今电子游戏的特点是有大量非玩家控制角色,这一编程将简单的规则结合起来产生复杂的行为。这样看来,DeepMind的人工智能玩游戏又有什么特别的呢?

针对这个问题的回答有两个。一是DeepMind的人工智能会逐渐变得更加成熟。就像见证孩子逐渐长大一样,如果一直盯着计算机看,很难察觉到它的变化。然而,每隔50多次游戏再看一下,效果是十分惊人的。开始的时候,DeepMind的人工智能在《打砖块》游戏中的表现简直糟透了,最简单的击球都做不好,而且它似乎并不清楚状况,就好像是把PS4(索尼第四代游戏主机)手柄交到90岁的老奶奶手里,并希望她立刻知道应该做什么一样。虽然它也会偶尔得分,但即使最乐观的旁观者也只能称之为运气。

200次游戏后,一切变得大为不同。现在游戏中的球拍能够在屏幕上左右移动:即使不是持续得分,也可谓能够轻松得分。再经过数百次游戏,游戏中的人工智简直如同《星球大战4:新希望》结束时的天行者卢克(Luke Skywalker)或《黑客帝国》中的尼奥(Neo)一样,懒散地击球,毫不费力。所有无关的动作都消失了,而且它产生了清晰的策略。

令DeepMind的人工智能具有重要意义的另一个原因是,它不需要进行大规模训练。传统人工智能的核心原则是必须将规则预先载入系统,这就像是老师在学生参加考试前会依次教他们问题的答案一样。DeepMind的人工智能与众不同之处在于,它能够自主学习,甚至无须告诉它应该怎样做。它所需要接入的就是构成《打砖块》游戏每一帧的30 000个像素点和屏幕上的选手得分。其他需要做的事,就是给它输入得分最大化的指令。之后,人工智能就可以随着游戏的进展获得游戏“规则”,然后逐渐形成能够改善其表现的策略。

DeepMind的人工智能可以玩的游戏并不只有《打砖块》。它最早玩的游戏是《太空入侵者》(Space Invaders),在掌握极少信息的情况下还学会了其他48个游戏,包括拳击模拟器、武术游戏甚至是3D(三维)赛车游戏。然而,要想突破电子游戏的“微型世界”还有很长的路要走。但这仍是一项惊人的成就,为人工智能的下一步发展指明了方向。下一步发展是什么?按照DeepMind的宗旨,下一步就是“解决人工智能”。