数据清洗综述数据清洗研究综述随着信息处理技术的不断发展,各行各业已建立了很多计算机信息系统,积累了大量的数据
为了使数据能够有效地支持组织的日常运作和决策,要求数据可靠无误,能够准确地反映现实世界的状况
数据是信息的基础,好的数据质量是各种数据分析如 0LAP、数据挖掘等有效应用的基本条件
人们常常抱怨“数据丰富,信息贫乏”,究其原因,一是缺乏有效的数据分析技术,二是数据质量不高,如数据输入错误、不同来源数据引起的不同表示方法,数据间的不一致等,导致现有的数据中存在这样或那样的脏数据
它们主要表现为:拼写问题、打印错误、不合法值、空值、不一致值、简写、同一实体的多种表示(重复)、不遵循引用完整性等
数据清洗(DataCleaning,DataCleansing 或者 DataScrubbing)的目的是检测数据中存在的错误和不一致,剔除或者改正它们,以提高数据的质量[1]
1 数据清洗国内外研究现状数据清洗主要在数据仓库、数据库知识发现(也称数据挖掘)和总体数据质量管理这 3 个领域研究较多
在数据仓库研究和应用领域,数据清洗处理是构建数据仓库的第一步,由于数据量巨大,不可能进行人工处理,因此自动化数据清洗受到工商业界的广泛关注
1 国外研究现状国外对数据清洗的研究最早出现在美国,是从对全美的社会保险号错误的纠正开始[2]
美国信息业和商业的发展,极大地刺激了对数据清洗技术的研究,主要集中在以下 4 个方面
(1)检测并消除数据异常采用统计方法来检测数值型属性,计算字段值的均值和标准差,考虑每个字段的置信区间来识别异常字段和记录
将数据挖掘方法引入数据清理,如聚类方法用于检测异常记录、模型方法发现不符合现有模式的异常记录、关联规则方法发现数据集中不符合具有高置信度和支持度规则的异常数据
(2)检测并消除近似重复记录即对重复记录进行清洗
消除数据集中的近似重复记录问题是目