电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

通用互联网信息采集系统的设计与初步实现VIP免费

通用互联网信息采集系统的设计与初步实现_第1页
1/9
通用互联网信息采集系统的设计与初步实现_第2页
2/9
通用互联网信息采集系统的设计与初步实现_第3页
3/9
通用互联网信息采集系统的设计与初步实现杜义华及俊川(中国科学院计算机网络信息中心管理服务中心,北京100864)摘要:通过建立网页资源库、结合Spider技术、内容分析技术,引入用户数据项和替换抽取指令编辑器等,提供和定制可视化通用性较强的互联网信息采集系统,能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库、分类等从互联网上获取所需信息。本文主要分析和介绍其设计实现思路。关键词:互联网信息采集系统网络信息挖掘中图法分类号:TP393文献标识码:A文章编号:0310206DesignandImplementationofaInternetInformationGather&ProcessSystemDUYi-hua,JIJun-chuan(Dept.ofOA,ComputerNetworkInformationCenter,ChineseAcademyofScienceBeijing10084,China)Abstract:Byusingwebpagedatabasetechnology、SPIDERsearchingtechnologyandcontentparsingtechnology,providingwithUser-DefinedfieldconfigtoolandbatchGet&Replacescriptlanguageeditor,WedevelopaflexiblevisualInternetInformationGather&ProcessSystem,whichaccordingtouser’ssetting,canautomatictrackWeb、filterinformation、Gatherinformation、extractinformation、classifyinformationandsavetodatabasetermly.Thispaperintroducesthedesignandimplementationofthesystemindetail.Keywords:InternetInformationGather&ProcessSystem;WebMining引言现状信息多、有用少、分布杂乱无章、不断发展变化是互联网上信息资源特点,信息来源的异构性是网络信息难以采集整理再利用的焦点[1]。近年来关于web信息利用研究很多,大多集中在搜索引擎技术[2],旨在利用先进系统和人工智能技术,以一定策略在互联网中搜集、发现、理解、组织信息后为用户提供网页、图片、软件等检索服务。互联网信息采集系统是对Internet上某些或某类站点进行内容分析和分类整理,从网页中提取有效数据加工得到所需要的常常是该领域绝大部分资料,是新一代网络应用的方向其不同于搜索引擎,纯智能化技术不能满足需要,不同于基于代理因特网信息获取的WebClone系统[3]及各类离线浏览器,他们下载的是页面,不能直接让用户抽取所需要数据项,不便自动实时监测源网站的更新信息等。采集系统均基于网页内容分析,除零星新闻采集程序外,目前较成熟的内容采集系统有“天星”系统(WebcateCPS)[4],其采用一种通用模板加脚本编程解决实现,有网络信息采集、分析、管理与发布工具(II-3I)[5]等。但现有系统不够大众化,还局限于定制开发,无法通用。设计目的信息采集过程可表现为用户指定需要采集的内容、这些内容映射到数据库中的哪一部分、以及其他一些采集规则,然后采集系统根据用户提供的这些信息进行采集。其不是用于互联网上未知信息未知网站的自动搜索,而主要是用于指定网站指定栏目下的信息,其采集的最终结果不再是页面,而是深入到站点和页面内部,采集中有效数据项和相关图片附件,并直接进入用户指定库。采集系统开发目的就是提供一个有力的工具,帮助普通用户(熟悉基本的HMTL)而非编程人员从异构数据源收集信息并转换为他所需要的信息,功能包括网页采集、分析下载直接入库、自动分类整理、内容定期更新监测等,整个采集过程基于参数和配置管理控制提供图形化界面编辑或向导式操作。系统将为最终用户提供一步到位的信息再整理过程,将浩瀚信息从无序化到有序化,可广泛用于情报收集、信息监控、行情跟踪、专业信息资源站、搜索引擎上二次开发[6]、内部知识系统或天气预报、股市、汇率、商情、动态新闻等的实时采集更新等。设计时充分考虑最大程度的通用性、易用性。实现原理目前,互联网上各网页均采用动态发布技术实现或采用模板制作,虽然Internet上的数据非常庞杂,但对于具体的网站和网页,却是有结构和有规律的。由于无论采集系统多么智能,网站页面和用户需求的映射关系都是采集系统程序不可能完全自动感知到的,但用户可以知道。因此系统程序实现的方法就是提供一个用户能够将需求告诉采集系统程序的通道。用户通过分析指定网站或指定的网站频道栏目下的网页元素,分析网页源HTML代码及网页间相互关系;可以...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

通用互联网信息采集系统的设计与初步实现

您可能关注的文档

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部