电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

数据清理关键技术及其软件平台的研究与应用资料VIP免费

数据清理关键技术及其软件平台的研究与应用资料_第1页
1/50
数据清理关键技术及其软件平台的研究与应用资料_第2页
2/50
数据清理关键技术及其软件平台的研究与应用资料_第3页
3/50
数据清理关键技术及其软件平台的研究与应用第一章绪 论1.1 引 言我国目前正在大力推广信息技术,实施各行各业的信息化工程。随着信息化建设的不断深入, 企事业单位积累了大量的电子数据,这些数据非常重要。为了使信息系统中的数据更准确、一致,能支持正确决策,就要求所管理的数据准确、可靠。因此,企业数据质量的管理正在获得越来越多的关注。但是,由于各种原因,如数据录入错误、不同来源数据引起的不同表示方法、数据间的不一致等,导致企业现有系统数据库中存在这样或那样的脏数据,主要表现为:不正确的字段值、重复的记录、拼写问题、不合法值、空值、不一致值、缩写词的不同,不遵循引用完整性等。根据“进去的是垃圾,出来的也是垃圾(garbage in,garbage out)”这条原理,若不进行清理,这些脏数据会扭曲从数据中获得的信息,影响信息系统的运行效果,也为企业构建数据仓库、建立决策支持系统、应用商务智能带来隐患。显见, 数据清理问题的重要性是不言而喻的。另外,从市场上众多的相关产品,也可以明白这一点。然而,由于数据清理本身的一些特点,比如:1)数据清理是具体应用问题,经常要具体问题具体分析,难于归纳出通用方法;2)数据清理问题的数学建模困难。因此, 目前在学术界,数据清理并没有得到足够的关注,针对这方面的研究也少,有些人甚至认为数据清理是一个需要大量劳动力的过程,而且往往过于依赖特定应用领域。其实不然, 对于数据清理有很多内容值得研究,比如:3)在数据清理的研究中,尽管检测相似重复记录受到最多的关注,采取了许多措施, 但检测效率与检测精度并不令人满意。特别是在数据量非常大时,耗时太多, 有待于更好的方法。作者在文献中做了一些这方面工作,在相似重复记录检测中采用长度过滤方法优化相似检测算法, 避免了不必要的编辑距离计算,从而提高了相似重复记录的检测效率;4)在数据清理的相关研究中,数据清理整体框架的研究正逐渐成为研究的热点。对此, 作者在文献 [7] 中提出一个可扩展的数据清理软件平台,该软件平台具有开放的规则库和算法库, 通过在规则库中定义清理规则以及从算法库中选择合适的清理算法,可使该软件平台适用于不同的数据源,从而使其具有较强的通用性和适应性;5)目前,对数据清理的研究主要集中在结构化数据上。由于半结构化数据XML(Extensible Markup Language,可扩展标识语言)的快速增长以及广泛应用,其在数据清理中越来越重要。为了...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

数据清理关键技术及其软件平台的研究与应用资料

您可能关注的文档

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部