关联分析:基本概念和算法第6章关联分析:基本概念和算法定义:关联分析(associationanalysis)关联分析用于发现隐藏在大型数据集中的令人感兴趣的联系,所发现的模式通常用关联规则或频繁项集的形式表示
关联分析可以应用于生物信息学、医疗诊断、网页挖掘、科学数据分析等RulesDiscovered:{Diaper}-->{Beer}RulesDiscovered:{Diaper}-->{Beer}TIDItems1Bread,Milk2Bread,Diaper,Beer,Eggs3Milk,Diaper,Beer,Coke4Bread,Milk,Diaper,Beer5Bread,Milk,Diaper,Coke定义:频繁项集(FrequentItemset)项集(Itemset)–包含0个或多个项的集合例子:{Milk,Bread,Diaper}–k-项集如果一个项集包含k个项支持度计数(Supportcount)()–包含特定项集的事务个数–例如:({Milk,Bread,Diaper})=2支持度(Support)–包含项集的事务数与总事务数的比值–例如:s({Milk,Bread,Diaper})=2/5频繁项集(FrequentItemset)–满足最小支持度阈值(minsup)的所有项集TIDItems1Bread,Milk2Bread,Diaper,Beer,Eggs3Milk,Diaper,Beer,Coke4Bread,Milk,Diaper,Beer5Bread,Milk,Diaper,Coke定义:关联规则(AssociationRule)Example:Beer}Diaper,Milk{4
052|T|)BeerDiaper,,Milk(s67
032)Diaper,Milk()BeerDiaper,Milk,(