精品文档---下载后可任意编辑Deep Web 数据源质量估量模型及应用讨论的开题报告一、选题背景随着互联网的快速进展,网络上的信息量越来越大,而且大多数信息都是靠搜索引擎进行检索的
但是,在搜索引擎索引的页面中,只有一小部分的页面是公开的(也被称为表面网),而其他页面都被屏蔽在深网中,这就是 Deep Web
Deep Web 的数据是非常重要的,并且拥有非常高的价值,但是在追求深网数据的过程中,数据源的质量成为了一个大问题
因为 Deep Web 数据主要由各种数据库和文件组成,这些数据源的质量存在巨大的差异性
虽然 Deep Web 提供了巨大的丰富的不同的数据库,但是这些数据源的质量是不可以忽视的,因为不同质量的数据源会影响到最终结果的准确性
因此,本文将讨论一种 Deep Web 数据源质量估量模型,以对 Deep Web 中的数据源进行质量评估,并且为 Deep Web 的数据搜索和挖掘提供一个优质数据源的选择指南
二、讨论目的和意义Deep Web 是一个非常重要的数据源,其中包含了各种类型的信息,包括但不限于商业信息、科技信息、学术信息、医学信息等等
Deep Web 的信息量非常多,但是质量却是比较难保证的,因为 Deep Web 的数据组织往往比较松散、数据源的更新缓慢,还有很多数据还没有被完全爬行,难以取得
为了提高 Deep Web 信息的利用率,需要开发某种数据源质量的评估模型,在数据搜索或数据挖掘的时候可以根据数据源的质量选择合适的数据源,以提高搜索或挖掘结果的准确性和可靠性
本文的讨论从 Deep Web 数据源的质量评估出发,尝试建立一套评价 Deep Web 的数据源质量的模型,并应用于学术领域的数据挖掘中,以验证该模型的可行性和有效性
三、讨论内容和方法本文讨论的主要内容是建立一个 Deep Web 数据源质量评估模型,并通过卫星遥感领域