首页 » 机器学习实战 » 机器学习实战全文在线阅读

《机器学习实战》第13章 利用PCA来简化数据

关灯直达底部

本章内容

  • 降维技术
  • 主成分分析(PCA)
  • 对半导体数据进行降维处理

想象这样一种场景:我们正通过电视而非现场观看体育比赛,在电视的纯平显示器上有一个球。显示器大概包含了100万像素,而球则可能是由较少的像素组成的,比如说一千个像素。在大部分体育比赛中,我们关注的是给定时刻球的位置。人的大脑要想了解比赛的进展,就需要了解球在运动场中的位置。对于人来说,这一切显得十分自然,甚至都不需要做任何思考。在这个场景当中,人们实时地将显示器上的百万像素转换成为了一个三维图像,该图像就给出了运动场上球的位置。在这个过程中,人们已经将数据从一百万维降至了三维。

在上述体育比赛的例子中,人们面对的原本是百万像素的数据,但是只有球的三维位置才最重要,这就被称为降维(dimensionality reduction)。刚才我们将超百万的数据值降到了只有三个相关值。在低维下,数据更容易进行处理。另外,其相关特征可能在数据中明确地显示出来。通常而言,我们在应用其他机器学习算法之前,必须先识别出其相关特征。

本章是涉及降维主题的两章中的第一章。在降维中,我们对数据进行了预处理。之后,采用其他机器学习技术对其进行处理。本章一开始对降维技术进行了综述,然后集中介绍一种应用非常普遍的称为主成分分析的技术。最后,我们就通过一个数据集的例子来展示PCA的工作过程。经过PCA处理之后,该数据集就从590个特征降低到了6个特征。