通用互联网信息采集系统的设计与初步实现杜义华及俊川(中国科学院计算机网络信息中心管理服务中心,北京100864)摘要:通过建立网页资源库、结合Spider技术、内容分析技术,引入用户数据项和替换抽取指令编辑器等,提供和定制可视化通用性较强的互联网信息采集系统,能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库、分类等从互联网上获取所需信息
本文主要分析和介绍其设计实现思路
关键词:互联网信息采集系统网络信息挖掘中图法分类号:TP393文献标识码:A文章编号:0310206DesignandImplementationofaInternetInformationGather&ProcessSystemDUYi-hua,JIJun-chuan(Dept
ofOA,ComputerNetworkInformationCenter,ChineseAcademyofScienceBeijing10084,China)Abstract:Byusingwebpagedatabasetechnology、SPIDERsearchingtechnologyandcontentparsingtechnology,providingwithUser-DefinedfieldconfigtoolandbatchGet&Replacescriptlanguageeditor,WedevelopaflexiblevisualInternetInformationGather&ProcessSystem,whichaccordingtouser’ssetting,canautomatictrackWeb、filterinformation、Gatherinformation、extractinformation、classifyinformationandsavetodatabasetermly