基于 Heritrix 的 Web 信息抽取
txt28 生活是一位睿智的长者,生活是一位博学的老师,它常常春风化雨,润物无声地为我们指点迷津,给我们人生的启迪
不要吝惜自己的爱,敞开自己的胸怀,多多给予,你会发现,你也已经沐浴在了爱河里
Heirx 的
Wertib 信息抽取陈俊彬曹树金中山大学资讯管理系广州 5100006 [摘要]针对现阶段 Web 信息抽取技术的不足,提出一种基于 Heritrix 的精确抽取方法,由三个分别独立的功能模块共同完成
与一般信息抽取不同,本方法注重于在精确抽取的前提下实现通用化,做到可以根据数据库表的字段来进行最小单位的信息抽取,并且较好地解决信息采集通用性和准确性之间的矛盾
[关键词]HrtiHMLasrWeb 数据采集eirx 信息抽取
Tpre[分类号]G250.73 WebInfrtotatosdortiomainExrcinBaenHeirx eun ahnChnJnbiCoSujiDepartmentofInformationManagement,SunYat—senUniversity,Guangzhou510006 [AbtathsaeitoueaehdoacccrtifrainetatoaeoeirxacccrigthhrafWenosrc]TipprnrdcsmtofuaenomtoxrcinbsdnHrtiodnotesotgeobifrmaroxrcintcnlg.h ytmiooeftrersetvdueeetfosaafifrtoxrcin,inetatoehooyTessescmpsdoheepciemol.Dif ffrnrmuulwyonomainetatothtd iounpeciionaelllaeeraty.Icnetrattemiim uitofifortiocodigt