什么是数据挖掘数据挖掘(DataMining),又称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识
并非所有的信息发现任务都被视为数据挖掘
例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(informationretrieval)领域的任务
虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息
尽管如此,数据挖掘技术也已用来增强信息检索系统的能力
数据挖掘的起源为迎接前一节中的这些挑战,来自不同学科的研究者汇集到一起,开始着手开发可以处理不同数据类型的更有效的、可伸缩的工具
这些工作建立在研究者先前使用的方法学和算法之上,在数据挖掘领域达到高潮
特别地,数据挖掘利用了来自如下一些领域的思想:(1)来自统计学的抽样、估计和假设检验,(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论
数据挖掘也迅速地接纳了来自其他领域的思想这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索
一些其他领域也起到重要的支撑作用
特别地,需要数据库系统提供有效的存储、索引和查询处理支持
源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的
分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要
数据挖掘能做什么1)数据挖掘能做以下六种不同事情(分析方法):·分类(Classification)·估值(Estimation)·预言(Prediction)·相关性分组或关联规则(Affinitygroupingorassociatio