数据挖掘工具的评判 刘世平 姚玉辉博士/文 要做数据挖掘,当然需要工具
但若靠传统的自我编程来实现,未免有些费时费力,而且其性能也不一定比商业工具来得强和稳定
目前,世界上已经有很多商业公司和研究机构开发出了各自的数据挖掘产品,而且功能和使用简易性也在日益提高
例如:SAS 公司的 Enterprise Miner 以及 IBM 公司的 Intelligent Miner,等等
直接采用商业数据挖掘工具来帮助项目实施,是一个很好的选择
它既节省了大量的开发费用,又可以节约维护和升级的开销
本文是目前国内第一份对主流数据挖掘工具的评估报告,该报告综合了国内一流业务专家和数据挖掘专家的意见,为帮助企业进行类似评估提供了很高的参考价值
工具种类 数据挖掘工具包括两种: ● 数据挖掘(Mining for Data)工具:其所用的数据都存储在已经有了明确字段定义的数据库或文本文件里,我们称之为结构化的数据挖掘工具
它主要是用来进行预测、聚类分析、关联分析、时间序列分析以及统计分析等
● 文本挖掘(Text Mining)工具:它是用来从非结构化的文档中提取有价值的信息,这些信息都隐藏在文档里并且没有清晰的字段定义
文本挖掘主要是应用在市场调研报告中或呼叫中心(Call Center)的客户报怨定级、专利的分类、网页的分类以及电子邮件分类等
根据著名数据挖掘网站 KDnuggets 统计,目前已有 50 多种数据挖掘工具问世
● 一般而言,目前市场上这些数据挖掘工具又可分成两类— — 企业型工具以及小型工具
企业型数据挖掘工具:应用在需要高处理能力、高网络容量和大数据量的场合下
这些工具通常支持多种平台,并基于客户机/服务器结构
它通常可以直接连接一些复杂的数据管理系统(不像普通文本文件),并能处理大量的数据
这类数据挖掘工具的另一个特点是它通常提供了多种数据挖掘算法,并有