现在你已了解了机器学习的秘密。将数据变为知识的机器不再是一个黑匣子:你知道魔法是如何发生的,以及它能做什么、不能做什么。你已经遇到复杂性怪兽、过拟合难题、维数灾难、探索与开发困境。你大体上知道了谷歌、脸书、亚马逊和所有其他网站把你每天慷慨提供给它们的数据用来做了什么,它们为什么能帮你找到东西、过滤垃圾,且不断改善它们的服务。你已经看到,在世界机器学习研究实验室里正酝酿什么,你可以旁观他们正在创造的未来。你已经看到机器学习的五大学派以及它们的主算法:符号学派和逆向演绎,联结学派和逆向传播,进化学派和遗传算法,贝叶斯学派和概率推理,类推学派和支持向量机。因为你已经遍历广阔的区域,协调跨越边境,爬到顶峰,和很多机器学习算法相比,你能更好地欣赏风景,而那些学习算法只能在其领域中每日艰苦工作。你可以看到共同主题流淌在这片土地上,就像一条地下河流,并且你还明白,这五种学习算法,表面上看差别很大,其实也只是单一通用学习算法的五个方面。
旅程还远远没有结束。我们还没有终极算法,只是瞥到它可能长什么样。如果某些基本的东西还找不到,有些东西沉浸在其历史当中,而我们在本领域中无法看到,那会怎么样呢?我们需要一些与之前想法不一样的新想法。这就是我写本书的原因——让你开始思考。我在华盛顿大学关于机器学习的夜校教课。2007年,网飞大奖宣布后不久,我提议将其作为班级项目中的一个。我班上的一位学生——杰夫·霍伯特被它迷住了,并在课程结束时继续钻研这个项目。在他第一次了解机器学习的两年之后,他最终成为获胜组的成员,当时总共有两个获胜组。现在轮到你了。你可以从UCI数据库上下载一些数据集(archive.ics.uci.edu/ml/)并开始这场比赛。当你做好准备时,可以对Kaggle.com进行了解,这是一个专门组织管理机器学习比赛的网站,然后挑一两个链接并点击进入。当然,如果你招募一两个朋友来和你一起工作,那样会更好玩。如果你也着迷了,就像杰夫那样,最后变成一个专业的数据科学家,那么欢迎进入世界上最让人陶醉的领域。如果你发现自己不满意于当前的学习算法,那就发明新的算法——或者只是出于好玩而发明。我最殷切的希望就是,你对这本书的反应,就像我对读的第一本人工智能书的反应一样,这已经过去20多年:这个领域有太多的事情要做,我不知道从何开始。如果有一天你发明了终极算法,请不要带着它跑到专利局,而是开放资源。终极算法应被任何人或者组织拥有,这一点太重要了。它应用的速度会比你为它申请许可的速度要快。但如果你打算创业,记得让每个世界上的男人、女人、孩子都能享受它。
无论是出于好奇,还是专业兴趣,你读了这本书,我希望和你的朋友、同事分享你学到了什么。机器学习接触到我们每个人的生活,而我们想用它来做什么也由自己决定。带着你对机器学习的新了解,你现在处于更好的位置来思考诸如隐私、数据分享、工作的未来、机器人之间的战争、人工智能的承诺与危险之类的问题;而且了解到这一点的人越多,我们越有可能避免圈套,并找到正确的路。这也是我写本书另外一个主要原因。统计学家知道做预测不容易,尤其是对未来的预测,而计算机科学家知道预测未来的最佳方法就是创造未来,但未经检验的未来不值得创造。
感谢你让我做你的向导。我想送给你一份临别礼物。牛顿说过,他就像一个在沙滩上玩耍的男孩,这边捡一枚鹅卵石,那边捡一块贝壳,而真理的大海就在他面前,等着他去发现。300年后,我们已经收集了一些了不得的鹅卵石和贝壳,但大片未被发现的海洋仍然延伸至远处,闪烁着希望的光辉。我的礼物就是一艘船——机器学习。现在该是时候扬帆起航了!