Apriori是一种频繁数据挖掘算法,它在2006年入选由IEEE International Conference on Data Mining所评选的数据挖掘领域的十大经典算法。该算法的主要目的是找出数据集的数据项中频繁出现的项集。

       首先定义频繁项:若某项在数据集中出现次数超过阈值$min\_sup$,则该项为频繁项(其中$min\_sup$可以根据实际情况进行设定)。假设需要得到数据集$D$中的频繁项集$S$,初始时集合$S$为空,则使用Apriori算法的求解的主要步骤为:

在上述步骤中求下一个候选集时,Apriori算法依赖于频繁项的一个性质:任意频繁项的子集合也是频繁的。因此,可以通过如下具体步骤来求解候选集:

上述算法完整Python实现可以在我的GitHub中获取到。


1.参考文档:

       [1]. 数据挖掘(概念与技术)              Jiawei Han 等著       范明 等译

       [2]. Top 10 algorithms in data mining