概念数据挖掘(DataMining)是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤
数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等
关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测
它的目的是为了挖掘隐藏在数据间的相互关系
数据挖掘能做什么分类(Classification)首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类
信用卡申请者,分类为低、中、高风险b
故障诊断:中国宝钢集团与上海天律信息技术有限公司合作,采用数据挖掘技术对钢材生产的全流程进行质量监控和分析,构建故障地图,实时分析产品出现瑕疵的原因,有效提高了产品的优良率
数据挖掘能做什么估计(Estimation)估计与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类数据挖掘的类别是确定数目的,估值的量是不确定的
根据购买模式,估计一个家庭的孩子个数b
根据购买模式,估计一个家庭的收入c
估计realestate的价值一般来说,估值可以作为分类的前一步工作
例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score0~1)
然后,根据阈值,将贷款级别分类
数据挖掘能做什么预测(Prediction)通常,预测是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言
从这种意义上说,预言其实没有必要分为一个单独的类
预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少
数据挖掘能做什么相关性分组或关联规则(Affinitygroupingorassociationrules)决定哪些事情将一起