数据清理关键技术及其软件平台的研究与应用第一章绪 论1
1 引 言我国目前正在大力推广信息技术,实施各行各业的信息化工程
随着信息化建设的不断深入, 企事业单位积累了大量的电子数据,这些数据非常重要
为了使信息系统中的数据更准确、一致,能支持正确决策,就要求所管理的数据准确、可靠
因此,企业数据质量的管理正在获得越来越多的关注
但是,由于各种原因,如数据录入错误、不同来源数据引起的不同表示方法、数据间的不一致等,导致企业现有系统数据库中存在这样或那样的脏数据,主要表现为:不正确的字段值、重复的记录、拼写问题、不合法值、空值、不一致值、缩写词的不同,不遵循引用完整性等
根据“进去的是垃圾,出来的也是垃圾(garbage in,garbage out)”这条原理,若不进行清理,这些脏数据会扭曲从数据中获得的信息,影响信息系统的运行效果,也为企业构建数据仓库、建立决策支持系统、应用商务智能带来隐患
显见, 数据清理问题的重要性是不言而喻的
另外,从市场上众多的相关产品,也可以明白这一点
然而,由于数据清理本身的一些特点,比如:1)数据清理是具体应用问题,经常要具体问题具体分析,难于归纳出通用方法;2)数据清理问题的数学建模困难
因此, 目前在学术界,数据清理并没有得到足够的关注,针对这方面的研究也少,有些人甚至认为数据清理是一个需要大量劳动力的过程,而且往往过于依赖特定应用领域
其实不然, 对于数据清理有很多内容值得研究,比如:3)在数据清理的研究中,尽管检测相似重复记录受到最多的关注,采取了许多措施, 但检测效率与检测精度并不令人满意
特别是在数据量非常大时,耗时太多, 有待于更好的方法
作者在文献中做了一些这方面工作,在相似重复记录检测中采用长度过滤方法优化相似检测算法, 避免了不必要的编辑距离计算,从而提高了相似重复记录的检测效率;4)在数据清理的相关研究中,数据清理整体框