主题型网页发现以及网页内信息块发现主题型网页发现目录•特征分析•算法设计•结果分析•不足与改进特征分析•主题型网页特征:–文字较多(非锚文本)主题型网页一般都有明显的文本段落,文字较多,相应的标点符号也较多。–URL较长在一般的Web网站链接导航树上,主题型网页主要分布于底层,多为叶节点。对于同一网站而言,主题型网页的URL相对较长。URL体现了网站内容管理的层次,对于大型网站而言,URL往往非常有规律。–链接较少主题型网页的主体在于“文字”,相对于导航型网页,其链接数较少。特征分析•非主题型网页特征–文字较少非主题型网页的主体是链接,图像,或者其它形式的内容,文字较少–链接较多对于导航型网页而言,链接是其主要内容–URL较短导航型网页的URL层数较少,且多为目录型URL特征分析•网页噪音特征–多以链接的形式出现–有很多锚文本,但标点符号较少–有许多常见的噪音文本,如版权声明等–在视觉上,多出现于网页的边缘算法设计•主题型网页发现:对网页进行二元分类•分类过程分为三个阶段:–阶段1:根据主题型网页的重要特征进行分类,这些重要特征主要包括:标点符号数目,文字数目。无需复杂算法,只需设置特征阈值。–阶段2:对在阶段1中无法确定分类的网页,提取更多的特征,利用分类器(如支持向量机)进行进一步的分类。这一阶段的特征有:URL层数、URL中数字的个数、文字数目、标点符号数目等。–阶段3:经过上面两个阶段的分类之后,对主题型网页进行信息块抽取,根据抽取结果的反馈,进一步筛选网页,去掉非主题型网页。抽取网页重要特征根据特征阈值判断判断为非主题型网页判断为主题型网页进一步抽取网页特征难以判断分类器分类判断为非主题型网页判断为主题型网页信息块抽取反馈进一步去除非主题型网页网页数据阶段1阶段2阶段3网页去噪算法设计•关键1:网页去噪–利用HTML分析工具(HtmlParser)去除所有脚本代码–去除网页中的所有锚文本网页噪音多为广告,以链接的形式出现–过滤常见的噪音文本去掉以非锚文本形式出现的网页噪音算法设计•关键2:特征阈值设定–重要特征:网页正文内容中的中文句号和逗号的数目URL层数URL是否为目录型,是否包含某些特殊关键字……–阈值设置:抽样测试表明,当网页的句号和逗号数目超过20个时,绝大部分的网页为主题型网页;当句号和逗号数目少于5时,绝大部分的网页为非主题型网页;当URL层数为1时,绝大部分的网页为非主题型网页;当URL为目录型URL时,绝大部分的网页为非主题型网页;算法设计•关键3:分类器–分类器的选择有监督分类器:支持向量机无监督分类器:KNN聚类–分类器的特征选择网页正文文字数目网页正文标点符号数目URL层数URL中数字的个数……结果分析•测试集:cwt_quark_70thousand71502个web•阶段1:(输入71502个web)主题型网页:33161个非主题型网页:19623个无法判断的网页:18718个(26.18%)•阶段2:(输入18718个web,利用SVM分类)主题型网页:15139个非主题型网页:3579个•阶段3:根据主题型网页信息块抽取结果,去掉只能抽取到极少内容的主题型网页3206个•最终:主题型网页:45094个(63.07%)非主题型网页:26408个(36.93%)结果分析•从阶段1的分类结果看出:大部分的网页(73.82%)可以根据网页的重要特征的阈值进行分类,方法简单高效。•虽然只有26.18%的网页需要利用分类器进行进一步的分类,但这26.18%的网页可能恰恰决定了本算法的分类效果。因为这26.18%的网页都是模棱两可的,对它们进行准确的分类至关重要!•由于阶段1和阶段2都可能存在一定的误差,因此经过信息块抽取之后的反馈是很重要的。不足与改进•对网页的特征选择与抽取还有待完善,期望以后能挖掘出更能描述网页性质的特征。•在网页去噪方面略显粗糙,需做进一步改善•阶段1的特征阈值设定过于简单。•阶段3的反馈机制过于简单。网页内信息块发现一、术语定义•主题型网页:主题型网页是指网页中通过文字描述了一件或多件事物,是有一定主题的;如一张具体的新闻网页就是典型的有主题网页。•PlainText:最终在浏览器中显示的文本,而且这些...