分布式大数据一致性管理关键技术讨论新技术的不断进展和数据的快速增长加速了大数据时代的到来
相关统计显示,如今人们每天产生的数据量已经达到了 EB 级,而且这个规模呈不断增加的趋势
针对这么庞大的数据规模,传统的数据管理技术难以对其进行分析和处理,有必要通过大规模的服务器集群进行并行处理
大数据不仅仅意味着数据规模大,更意味着其中蕴含的数据价值很大,如对企业大数据的充分利用和挖掘会对企业的决策和未来进展产生重要影响
要想充分发挥大数据的价值,通常对其数据质量有着一定的要求,高质量是大数据的效能充分发挥的基础和前提
大数据的质量问题包括一致性、精确性等在内的多个特性,其中一致性是大数据质量问题的重要内容之一
在数据存在不一致性的情况下,为找出数据中隐含的约束规则,有必要进行诸如函数依赖等约束规则的发现
为提高数据质量,有必要进行不一致性检测,从中发现违反约束规则的不一致性数据
本文主要针对大数据的一致性问题展开相关的讨论,主要从大数据约束规则发现、不一致性检测以及数据修复几个方面着手,通过对大数据一致性问题的讨论,从中从中发现约束规则和找出违反函数依赖的数据,为大数据的修复提供依据,基于统计学习理论讨论了数据清洗问题,给出了数据自动清洗方法
本文的主要讨论内容和创新点如下:(1)分布式大数据函数依赖发现方法
指出函数依赖发现问题面临的挑战和现有函数依赖发现方法的不足,提出了适用于分布式水平切分和垂直切分大数据的函数依赖发现方法
制定了函数依赖发现过程中候选函数依赖搜索策略,给出了发现问题的响应时间代价模型,将负载分配问题划归为整数规划问题并给出近似最优解
定义了适合分布式环境函数依赖发现的剪枝策略,基于广播对发现的局部结果进行消息传递和剪枝,从而提升发现效率
基于真实和人工数据集的实验结果表明,提出的函数依赖发现方法在节点扩展性、数据扩展性和属性个数扩展性方面表现良好