向量空间模型VIP免费

下载本文档

阅读 133
下载 20
格式 doc
大小 151.18 KB
约4页
2024-11-19 发布于河南
收藏
评论
点赞(0)
海报
举报

1/4页

2/4页

3/4页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

向量空间模型向量空间模型(VectorSpaceModel)[29],简称VSM,这是文本建模中常用的模型之一。它的主要思想是将词语看成孤立的，互不相关的，也就是所谓的“词袋”;这样就可以将文本转化为多维度的空间向量来表示，向量维度一般是词语，可以用维度的权重来表示词语的某些特性。有一篇很长的文章，我要用计算机提取它的关键词（AutomaticKeyphraseextraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相当满意的结果。它简单到都不需要高等数学，普通人只用10分钟就可以理解，这就是我今天想要介绍的TF-IDF算法。让我们从一个实例开始讲起。假定现在有一篇长文《中国的蜜蜂养殖》，我们准备用计算机提取它的关键词。一个容易想到的思路，就是找到出现次数最多的词。如果某个词很重要，它应该在这篇文章中多次出现。于是，我们进行"词频"（TermFrequency，缩写为TF）统计。结果你肯定猜到了，出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词。它们叫做"停用词"（stopwords），表示对找到结果毫无帮助、必须过滤掉的词。假设我们把它们都过滤掉了，只考虑剩下的有实际意义的词。这样又会遇到了另一个问题，我们可能发现"中国"、"蜜蜂"、"养殖"这三个词的出现次数一样多。这是不是意味着，作为关键词，它们的重要性是一样的？显然不是这样。因为"中国"是很常见的词，相对而言，"蜜蜂"和"养殖"不那么常见。如果这三个词在一篇文章的出现次数一样多，有理由认为，"蜜蜂"和"养殖"的重要程度要大于"中国"，也就是说，在关键词排序上面，"蜜蜂"和"养殖"应该排在"中国"的前面。所以，我们需要一个重要性调整系数，衡量一个词是不是常见词。如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。用统计学语言表达，就是在词频的基础上，要对每个词分配一个"重要性"权重。最常见的词（"的"、"是"、"在"）给予最小的权重，较常见的词（"中国"）给予较小的权重，较少见的词（"蜜蜂"、"养殖"）给予较大的权重。这个权重叫做"逆文档频率"（InverseDocumentFrequency，缩写为IDF），它的大小与一个词的常见程度成反比。知道了"词频"（TF）和"逆文档频率"（IDF）以后，将这两个值相乘，就得到了一个词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大。所以，排在最前面的几个词，就是这篇文章的关键词下面就是这个算法的细节。第一步，计算词频。考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化第二步，计算逆文档频率。这时，需要一个语料库（corpus），用来模拟语言的使用环境。如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。第三步，计算TF-IDF。可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。还是以《中国的蜜蜂养殖》为例，假定该文长度为1000个词，"中国"、"蜜蜂"、"养殖"各出现20次，则这三个词的"词频"（TF）都为0.02。然后，搜索Google发现，包含"的"字的网页共有250亿张，假定这就是中文网页总数。包含"中国"的网页共有62.3亿张，包含"蜜蜂"的网页为0.484亿张，包含"养殖"的网页为0.973亿张。则它们的逆文档频率（IDF）和TF-IDF如下从上表可见，"蜜蜂"的TF-IDF值最高，"养殖"其次，"中国"最低。（如果还计算"的"字的TF-IDF，那将是一个极其接近0的值。）所以，如果只选择一个词，"蜜蜂"就是这篇文章的关键词。除了自动提取关键词，TF-IDF算法还可以用于许多别的地方。比如，信息检索时，对于每个文档，都可以分别计算一组搜索词（"中国"、"蜜蜂"、"养殖"）的TF-IDF，将它们相加，就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。TF-IDF算法的优点是简单...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

向量空间模型

向量空间模型向量空间模型(VectorSpaceModel)[29],简称VSM,这是文本建模中常用的模型之一

它的主要思想是将词语看成孤立的，互不相关的，也就是所谓的“词袋”;这样就可以将文本转化为多维度的空间向量来表示，向量维度一般是词语，可以用维度的权重来表示词语的某些特性

有一篇很长的文章，我要用计算机提取它的关键词（AutomaticKeyphraseextraction），完全不加以人工干预，请问怎样才能正确做到

这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相当满意的结果

它简单到都不需要高等数学，普通人只用10分钟就可以理解，这就是我今天想要介绍的TF-IDF算法

让我们从一个实例开始讲起

假定现在有一篇长文《中国的蜜蜂养殖》，我们准备用计算机提取它的关键词

一个容易想到的思路，就是找到出现次数最多的词

如果某个词很重要，它应该在这篇文章中多次出现

于是，我们进行"词频"（TermFrequency，缩写为TF）统计

结果你肯定猜到了，出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词

它们叫做"停用词"（stopwords），表示对找到结果毫无帮助、必须过滤掉的词

假设我们把它们都过滤掉了，只考虑剩下的有实际意义的词

这样又会遇到了另一个问题，我们可能发现"中国"、"蜜蜂"、"养殖"这三个词的出现次数一样多

这是不是意味着，作为关键词，它们的重要性是一样的

显然不是这样

因为"中国"是很常见的词，相对而言，"蜜蜂"和"养殖"不那么常见

如果这三个词在一篇文章的出现次数一样多，有理由认为，"蜜蜂"和"养殖"的重要程度要大于"中国"，也就是说，在关键词排序上面，"蜜蜂"和"养殖"应该排在"中国"的前面

所以，我们需要一个重要性调整系数，衡量一个词是不是常见词

学海无涯书城 + 关注: 实名认证
内容提供者

热爱教育事业，爱好互联网行业

收藏店铺进入空间

向量空间模型VIP免费

向量空间模型

您可能关注的文档

相关文档

热门下载

相关标签