本节主要介绍机器学习的主要任务,并给出一个表格,帮助读者将机器学习算法转化为可实际运作的应用程序。
上节的例子介绍了机器学习如何解决分类问题,它的主要任务是将实例数据划分到合适的分类中。机器学习的另一项任务是回归,它主要用于预测数值型数据。大多数人可能都见过回归的例子——数据拟合曲线:通过给定数据点的最优拟合曲线。分类和回归属于监督学习,之所以称之为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。
与监督学习相对应的是非监督学习,此时数据没有类别信息,也不会给定目标值。在非监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类;将寻找描述数据统计值的过程称之为密度估计。此外,非监督学习还可以减少数据特征的维度,以便我们可以使用二维或三维图形更加直观地展示数据信息。表1-2列出了机器学习的主要任务,以及解决相应问题的算法。
表1-2 用于执行分类、回归、聚类和密度估计的机器学习算法
你可能已经注意到表1-2中的很多算法都可以用于解决同样的问题,有心人肯定会问:“为什么解决同一个问题存在四种方法?精通其中一种算法,是否可以处理所有的类似问题?”本书的下一节将回答这些疑问。