主题型网页发现以及网页内信息块发现主题型网页发现目录•特征分析•算法设计•结果分析•不足与改进特征分析•主题型网页特征:–文字较多(非锚文本)主题型网页一般都有明显的文本段落,文字较多,相应的标点符号也较多
–URL较长在一般的Web网站链接导航树上,主题型网页主要分布于底层,多为叶节点
对于同一网站而言,主题型网页的URL相对较长
URL体现了网站内容管理的层次,对于大型网站而言,URL往往非常有规律
–链接较少主题型网页的主体在于“文字”,相对于导航型网页,其链接数较少
特征分析•非主题型网页特征–文字较少非主题型网页的主体是链接,图像,或者其它形式的内容,文字较少–链接较多对于导航型网页而言,链接是其主要内容–URL较短导航型网页的URL层数较少,且多为目录型URL特征分析•网页噪音特征–多以链接的形式出现–有很多锚文本,但标点符号较少–有许多常见的噪音文本,如版权声明等–在视觉上,多出现于网页的边缘算法设计•主题型网页发现:对网页进行二元分类•分类过程分为三个阶段:–阶段1:根据主题型网页的重要特征进行分类,这些重要特征主要包括:标点符号数目,文字数目
无需复杂算法,只需设置特征阈值
–阶段2:对在阶段1中无法确定分类的网页,提取更多的特征,利用分类器(如支持向量机)进行进一步的分类
这一阶段的特征有:URL层数、URL中数字的个数、文字数目、标点符号数目等
–阶段3:经过上面两个阶段的分类之后,对主题型网页进行信息块抽取,根据抽取结果的反馈,进一步筛选网页,去掉非主题型网页
抽取网页重要特征根据特征阈值判断判断为非主题型网页判断为主题型网页进一步抽取网页特征难以判断分类器分类判断为非主题型网页判断为主题型网页信息块抽取反馈进一步去除非主题型网页网页数据阶段1阶段2阶段3网页去噪算法设计•关键1:网页去噪–利用HTML分析工具(HtmlParser)去除所有脚本代码