FP-growth算法是一种用于发现数据集中频繁模式的有效方法。FP-growth算法利用Apriori原则,执行更快。Apriori算法产生候选项集,然后扫描数据集来检查它们是否频繁。由于只对数据集扫描两次,因此FP-growth算法执行更快。在FP-growth算法中,数据集存储在一个称为FP树的结构中。FP树构建完成后,可以通过查找元素项的条件基及构建条件FP树来发现频繁项集。该过程不断以更多元素作为条件重复进行,直到FP树只包含一个元素为止。
可以使用FP-growth算法在多种文本文档中查找频繁单词。Twitter网站为开发者提供了大量的API来使用他们的服务。利用Python模块Python-Twitter
可以很容易访问Twitter。在Twitter源上对某个话题应用FP-growth算法,可以得到一些有关该话题的摘要信息。频繁项集生成还有其他的一些应用,比如购物交易、医学诊断及大气研究等。
下面几章会介绍一些附属工具。第13章和第14章会介绍一些降维技术,使用这些技术可以提炼数据中的重要信息并且移除噪声。第14章会介绍Map Reduce技术,当数据量超过单台机器的处理能力时,将会需要这些技术。