电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

余弦相似性算法VIP免费

余弦相似性算法_第1页
余弦相似性算法_第2页
1.1余弦相似性算法这个算法的数学基础非常典型,用到了夹角的余弦定理,如图3.2夹角余弦相似度示意图所示,就是常见的余弦定理的算法应用,这个算法就是通过计算两个向量的夹角余弦值来评估文本的相似度,从本质上分析就是利用余弦函数的方法。由此可以看到算法的基本原理,余弦函数是三角函数的一种,在Rt△ABC(直角三角形)中,∠C=90°,角A的余弦是它的邻边比三角形的斜边,即cosA=b/c,也可写为cosA=AC/AB,余弦函数:f(x)=cosx(x∈R),这样就可以通过计算两个向量的夹角余弦值来评估他们的相似度。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫“余弦相似性”。通过前文的分析,两个文本的相似度就是指各自的特征向量的吻合程度,这样通过计算特征向量的余弦值,就可以通过余弦相似性算法计算出的值代表两个词语大概相似。如图3.2所示的立体空间中向量1T,2T,其相似度可以通过1T,2T向量对应的夹角来度量。通过数学知识可以知道,当1T,2T之间的余弦值为1时,相似度达到最大值1,向量之间的方向非常吻合,可能的相似程度越高;当1T,2T之间的余弦值为0时,相似度达到最小值0,向量之间的方向越不吻合,可能的相似程度越低;则可以把余弦值放在1,0之间取值来表示不同文本之间相似度。图3.2夹角余弦相似度示意这样就可以把余弦相似度计算公式统一为:22212121),cos(TTTTTT(3-3)其中,1T,2T为维度相同的两个向量。这个算法直接可以用于机器学习,把文本表示为向量即可运算,这时出现的典型现象就是文本表示的向量集合维数会达到数千维,并且是高维稀疏向量集合。

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部