分布式大数据一致性管理关键技术研究

下载本文档

阅读 141
下载 8
格式 doc
大小 15 KB
约3页
2025-09-01 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/3页

2/3页

3/3页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

分布式大数据一致性管理关键技术讨论新技术的不断进展和数据的快速增长加速了大数据时代的到来。相关统计显示,如今人们每天产生的数据量已经达到了 EB 级,而且这个规模呈不断增加的趋势。针对这么庞大的数据规模,传统的数据管理技术难以对其进行分析和处理,有必要通过大规模的服务器集群进行并行处理。大数据不仅仅意味着数据规模大,更意味着其中蕴含的数据价值很大,如对企业大数据的充分利用和挖掘会对企业的决策和未来进展产生重要影响。要想充分发挥大数据的价值,通常对其数据质量有着一定的要求,高质量是大数据的效能充分发挥的基础和前提。大数据的质量问题包括一致性、精确性等在内的多个特性,其中一致性是大数据质量问题的重要内容之一。在数据存在不一致性的情况下,为找出数据中隐含的约束规则,有必要进行诸如函数依赖等约束规则的发现。为提高数据质量,有必要进行不一致性检测,从中发现违反约束规则的不一致性数据。本文主要针对大数据的一致性问题展开相关的讨论,主要从大数据约束规则发现、不一致性检测以及数据修复几个方面着手,通过对大数据一致性问题的讨论,从中从中发现约束规则和找出违反函数依赖的数据,为大数据的修复提供依据,基于统计学习理论讨论了数据清洗问题,给出了数据自动清洗方法。本文的主要讨论内容和创新点如下:(1)分布式大数据函数依赖发现方法。指出函数依赖发现问题面临的挑战和现有函数依赖发现方法的不足,提出了适用于分布式水平切分和垂直切分大数据的函数依赖发现方法。制定了函数依赖发现过程中候选函数依赖搜索策略,给出了发现问题的响应时间代价模型,将负载分配问题划归为整数规划问题并给出近似最优解。定义了适合分布式环境函数依赖发现的剪枝策略,基于广播对发现的局部结果进行消息传递和剪枝,从而提升发现效率。基于真实和人工数据集的实验结果表明,提出的函数依赖发现方法在节点扩展性、数据扩展性和属性个数扩展性方面表现良好。(2)分布式大数据近似函数依赖发现方法。指出近似函数依赖的应用价值、近似函数依赖发现面临的挑战和现有讨论现状和不足,提出了一种适用于分布式水平切分大数据的近似函数依赖并行发现方法。制定了候选近似函数依赖搜索策略。为提高近似函数依赖发现效率,给出了近似函数依赖集合剪枝策略,基于阶段发现结果进行剪枝,对剪枝效果进行了定量分析。由于任务分配问题为 NP-hard 问题,给出了近似最优的任务分配方法。实验结果表明,提出的近似函数依赖发现方法与集中式方法相比...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

分布式大数据一致性管理关键技术研究

分布式大数据一致性管理关键技术讨论新技术的不断进展和数据的快速增长加速了大数据时代的到来

相关统计显示,如今人们每天产生的数据量已经达到了 EB 级,而且这个规模呈不断增加的趋势

针对这么庞大的数据规模,传统的数据管理技术难以对其进行分析和处理,有必要通过大规模的服务器集群进行并行处理

大数据不仅仅意味着数据规模大,更意味着其中蕴含的数据价值很大,如对企业大数据的充分利用和挖掘会对企业的决策和未来进展产生重要影响

要想充分发挥大数据的价值,通常对其数据质量有着一定的要求,高质量是大数据的效能充分发挥的基础和前提

大数据的质量问题包括一致性、精确性等在内的多个特性,其中一致性是大数据质量问题的重要内容之一

在数据存在不一致性的情况下,为找出数据中隐含的约束规则,有必要进行诸如函数依赖等约束规则的发现

为提高数据质量,有必要进行不一致性检测,从中发现违反约束规则的不一致性数据

本文主要针对大数据的一致性问题展开相关的讨论,主要从大数据约束规则发现、不一致性检测以及数据修复几个方面着手,通过对大数据一致性问题的讨论,从中从中发现约束规则和找出违反函数依赖的数据,为大数据的修复提供依据,基于统计学习理论讨论了数据清洗问题,给出了数据自动清洗方法

本文的主要讨论内容和创新点如下:(1)分布式大数据函数依赖发现方法

指出函数依赖发现问题面临的挑战和现有函数依赖发现方法的不足,提出了适用于分布式水平切分和垂直切分大数据的函数依赖发现方法

制定了函数依赖发现过程中候选函数依赖搜索策略,给出了发现问题的响应时间代价模型,将负载分配问题划归为整数规划问题并给出近似最优解

定义了适合分布式环境函数依赖发现的剪枝策略,基于广播对发现的局部结果进行消息传递和剪枝,从而提升发现效率

基于真实和人工数据集的实验结果表明,提出的函数依赖发现方法在节点扩展性、数据扩展性和属性个数扩展性方面表现良好

雏圣文化 + 关注: 实名认证
内容提供者

欢迎光临，大量办公文档供您挑选。

收藏店铺进入空间

分布式大数据一致性管理关键技术研究

分布式大数据一致性管理关键技术研究

您可能关注的文档

相关文档

热门下载

相关标签