1 Apriori 介绍 Apriori 算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k 项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1 项集,该集合记做L1,然后利用L1 找频繁2 项集的集合L2,L2 找L3,如此下去,直到不能再找到任何频繁k 项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则。 其中,Apriori 算法具有这样一条性质:任一频繁项集的所有非空子集也必须是频繁的。因为假如P(I)< 最小支持度阈值,当有元素A 添加到I 中时,结果项集(A∩I)不可能比 I出现次数更多。因此A∩I 也不是频繁的。 2 连接步和剪枝步 在上述的关联规则挖掘过程的两个步骤中,第一步往往是总体性能的瓶颈。Apriori 算法采用连接步和剪枝步两种方式来找出所有的频繁项集。 1) 连接步 为找出Lk(所有的频繁k 项集的集合),通过将 Lk-1(所有的频繁k-1 项集的集合)与自身连接产生候选 k 项集的集合。候选集合记作Ck。设 l1 和 l2 是Lk-1 中的成员。记li[j]表示li 中的第 j 项。假设 Apriori 算法对事务或项集中的项按字典次序排序,即对于(k-1)项集li,li[1]