下载后可任意编辑通用互联网信息采集系统的设计与初步实现杜义华 及俊川(中国科学院计算机网络信息中心 管理服务中心 , 北京 100864)摘要:通过建立网页资源库、结合 Spider 技术、内容分析技术,引入用户数据项和替换抽取指令编辑器等,提供和定制可视化通用性较强的互联网信息采集系统,能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库、分类等从互联网上猎取所需信息
本文重要分析和介绍其设计实现思绪
关键词:互联网信息采集系统 网络信息挖掘 中图法分类号:TP393 文献标记码:A 文章编号:0310206Design and Implementation of a Internet Information Gather & Process SystemDU Yi-hua , JI Jun-chuan(Dept
of OA , Computer Network Information Center , Chinese Academy of Science Beijing 10084,China)Abstract : By using web page database technology 、 SPIDER searching technology and content parsing technology , providing with User-Defined field config tool and batch Get & 下载后可任意编辑Replace script language editor , We develop a flexible visual Internet Information Gather & Process System , which according to user’s setting , can automatic