电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

特种医学深网信息自动获取技术研究

特种医学深网信息自动获取技术研究_第1页
1/6
特种医学深网信息自动获取技术研究_第2页
2/6
特种医学深网信息自动获取技术研究_第3页
3/6
特种医学深网信息自动猎取技术讨论 一面对深网资源的信息抽取与分类技术讨论 笔者以实现深网信息自动化猎取为讨论目标,从面对深网资源的搜索提取方法、面对实体层 Web 的信息索引和分类技术、面对用户的信息检索平台建设 3 个技术层面展开讨论,有计划地将大量无序的特色网络资源实现自有化并得以快捷利用。 1 基于半监督顺序回归模型的爬虫算法 在资源搜索方面,将搜索目标设定为通常无法订购但军事特种医院特点鲜亮的特色资源。通常,这些网络资源都是以深网的方式存储,并且无法直接猎取。为此,笔者讨论了面对深网的信息提取技术,讨论并实现了一种面对军事特种医院资源的基于半监督顺序回归模型的快速爬虫算法。此算法主要包括以下 3 个步骤:首先,根据军事特种医院网站资源的特点,利用半监督顺序回归的方法构造深网页面分类器,定义所需的主题相关的网页分为 N 个不同的层次。此时层次的数量级根据所给定网站资源特点设定。一般情况下,N≤4。其次,构造深网链接信息抽取器,抽取对应 N 层次的有效链接。在提取这些链接信息时,采纳多线程的方法完成。最后,把深网页面分类器的分类作为指导,形成特征库,利用让爬虫自动提取满足要求的链接特征,快速实时地找到各层有效链接。对于爬行过程而言,笔者具体采纳如下方法:在开始爬行前,把预先定义的符合特种医院资源信息的种子放入最低层的链接队列中,链接信息提取器从深网页面中抽取满足特点规则的链接信息,包括链接的网址、页面标题,链接的锚属性等信息,并同时交付链接特征学习器。在链接特征学习器中,笔者将采纳深度机器学习方法,将这些特征进行归类、分析。然后,根据上述方法,将所有 N 层队列中的链接进行爬行。对于同一层次的链接,根据预先定义的规则让距离网站主页近的链接先爬行。这样,既可以爬行到最佳的链接,又保证让所有的链接都被爬行到。系统运行结果表明笔者提出的爬行策略能够提取深网中有效链接的基本特征,并过滤掉无关链接,提高了爬虫的速度和准确度。 2 面对实体层 Web 的信息索引技术 采纳高效的爬虫技术从 DeepWeb 上抽取出的军事特种医院特点鲜亮的特色资源之后,将其存储在本地数据库中。对于索引而言,由于军事特种医院信息的特色,其索引对象可表示为 Web 实体(WebEntity)。Web 实体通常具有各种属性,并由属性进行描述。如海军信息、潜水艇实体,具有长、宽、重量、下水深度等属性,可以将军事特种医院信息划归为多种不同实...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

特种医学深网信息自动获取技术研究

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部