首页 » 机器学习实战 » 机器学习实战全文在线阅读

《机器学习实战》13.4 本章小结

关灯直达底部

降维技术使得数据变得更易使用,并且它们往往能够去除数据中的噪声,使得其他机器学习任务更加精确。降维往往作为预处理步骤,在数据应用到其他算法之前清洗数据。有很多技术可以用于数据降维,在这些技术中,独立成分分析、因子分析和主成分分析比较流行,其中又以主成分分析应用最广泛。

PCA可以从数据中识别其主要特征,它是通过沿着数据最大方差方向旋转坐标轴来实现的。选择方差最大的方向作为第一条坐标轴,后续坐标轴则与前面的坐标轴正交。协方差矩阵上的特征值分析可以用一系列的正交坐标轴来获取。

本章中的PCA将所有的数据集都调入了内存,如果无法做到,就需要其他的方法来寻找其特征值。如果使用在线PCA分析的方法,你可以参考一篇优秀的论文”Incremental Eigenanalysis for Classification”1。下一章要讨论的奇异值分解方法也可以用于特征值分析。

1. P. Hall, D. Marshall, and R. Martin, “Incremental Eigenanalysis for Classification,” Department of Com- puterScience, Cardiff University, 1998 British Machine Vision Conference, vol. 1, 286–95; [http:// citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.40.4801.](http:// citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.40.4801.)