本书第四部分即是最后一部分,主要介绍在机器学习实践时常用的一些其他工具,它们可以应用于前三部分的算法上。这些工具还包括了可以对前三部分中任一算法的输入数据进行预处理的降维技术。这一部分还包括了在上千台机器上分配作业的Map Reduce技术。
降维的目标就是对输入的数目进行削减,由此剔除数据中的噪声并提高机器学习方法的性能。第13章将介绍按照数据方差最大方向调整数据的主成分分析降维方法。第14章解释奇异值分解,它是矩阵分解技术中的一种,通过对原始数据的逼近来达到降维的目的。
第15章是本书的最后一章,主要讨论了在大数据下的机器学习。大数据(big data)指的就是数据集很大以至于内存不足以将其存放。如果数据不能在内存中存放,那么在内存和磁盘之间传输数据时就会浪费大量的时间。为了避免这一点,我们就可以将整个作业进行分片,这样就可以在多机下进行并行处理。Map Reduce就是实现上述过程的一种流行的方法,它将作业分成了Map任务和Reduce任务。第15章将介绍Python中Map Reduce实现的一些常用工具,同时也介绍了将机器学习转换成满足Map Reduce编程范式的方法。