通用互联网信息采集系统的设计与初步实现

下载本文档

阅读 169
下载 10
格式 doc
大小 77.5 KB
约13页
2024-12-28 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/13页

2/13页

3/13页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/13

文本预览下载提示常见问题

下载后可任意编辑通用互联网信息采集系统的设计与初步实现杜义华及俊川(中国科学院计算机网络信息中心管理服务中心 , 北京 100864)摘要：通过建立网页资源库、结合 Spider 技术、内容分析技术，引入用户数据项和替换抽取指令编辑器等，提供和定制可视化通用性较强的互联网信息采集系统，能定期自动跟踪相关网站或网页，进行比较分析、抽取、规整入库、分类等从互联网上猎取所需信息。本文重要分析和介绍其设计实现思绪。关键词：互联网信息采集系统网络信息挖掘中图法分类号：TP393 文献标记码：A 文章编号：0310206Design and Implementation of a Internet Information Gather & Process SystemDU Yi-hua , JI Jun-chuan(Dept. of OA , Computer Network Information Center , Chinese Academy of Science Beijing 10084,China)Abstract ： By using web page database technology 、 SPIDER searching technology and content parsing technology , providing with User-Defined field config tool and batch Get & 下载后可任意编辑Replace script language editor , We develop a flexible visual Internet Information Gather & Process System , which according to user’s setting , can automatic track Web 、 filter information 、 Gather information 、 extract information 、 classify information and save to database termly .This paper introduces the design and implementation of the system in detail.Keywords：Internet Information Gather & Process System ；Web Mining引言现状信息多、有用少、分布杂乱无章、不断进展变化是互联网上信息资源特点，信息来源的异构性是网络信息难以采集整理再运用的焦点 [1]。近年来关于 web 信息运用讨论很多，大多集中在搜索引擎技术[2]，旨在运用先进系统和人工智能技术，以一定策略在互联网中搜集、发现、理解、组织信息后为用户提供网页、图片、软件等检索服务。互联网信息采集系统是对 Internet 上某些或某类站点进行内容分析和分类整理，从网页中提取有效数据加工得到所需要的常常是该领域绝大部分资料，是新一代网络应用的方向其不同于搜索引擎，纯智能化技术不能满足需要，不同于基于代理因特网信息猎取的 WebClone 系统[3]...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容