文本相似度算法研究摘要基于电子作业检查等各类电子文档对比需要,本文探究了电子文档相似度算法,以便解决两个电子文档是否相同,相似比例为多少的问题,考虑到文档的相似度又可分成段落相似度、句子相似度来进行度量,所以该研究课题首先是定义了文本相似度,其次通过研究现有相似度算法,重点是余弦相似性算法、简单共有词相似度算法、欧几里得距离相似度算法,最后在分析余弦相似性算法、简单共有词相似度算法、欧几里得距离相似度算法优缺点的基础上,提出了改进的新的相似度算法,对于余弦相似性算法、简单共有词相似度算法、欧几里得距离相似度进行了改进,提高了3种算法检测的准确度。关键词文本相似度;余弦定理;简单共有词;欧几里得距离;相似度算法ResearchonTextSimilarityAlgorithmsAbstractInordertosolvetheproblemofwhethertwoelectronicdocumentsarethesameandhowmuchthesimilarityratiois,thesimilarityalgorithmofelectronicdocumentsisexploredinthispaper,basedontheneedofelectronicdocumentcomparison.Consideringthatthesimilarityofdocumentscanbemeasuredbyparagraphsimilarityandsentencesimilarity,thisresearchfirstlydefinesthetextsimilarity,andsecondly,throughtheresearch,thispaperputsforwardthatthesimilarityofdocumentscanbemeasuredbyparagraphsimilarityandsentencesimilarity.Therearesimilarityalgorithms,focusingoncosinesimilarityalgorithm,simplecommonwordsimilarityalgorithmandEuclideandistancesimilarityalgorithm.Finally,basedontheanalysisoftheadvantagesanddisadvantagesofcosinesimilarityalgorithm,simplecommonwordsimilarityalgorithmandEuclideandistancesimilarityalgorithm,animprovednewsimilarityalgorithmisproposed.Forcosinesimilarityalgorithmandsimplecommonwordsimilarityalgorithm,anewsimilarityalgorithmisproposed.ThealgorithmandEuclideandistancesimilarityareimprovedtoincreasetheaccuracyofthethreealgorithms.Keywordstextsimilarity;Cosinetheorem;simplecommonwords;Euclideandistance;similarityalgorithm1绪论1.1研究背景与意义在网络化时代算法改变人们的工作和生活,其中文本相似度算法在网络日益渗透到人们生活方方面面的时代越来越重要,应用范围越来越普遍、所所不及,只要有知识或信息的环境就有可能用到这个算法,当前最典型的应用是智能翻译、分答系统、知识检索、文档分类等领域,在每一个领域的应用都是最基础的应用,没有文本相似度算法就没有更多的其它应用,其它各类应用都是建立在这个算法的基础上,这个算法能够在不同信息之间实现匹配,找到人们希望得到的信息,这就解决了海量知识与精准需求之间的矛盾,解决了快速检索需求与计算效率之间的矛盾[1],解决了人工操作费时费力与机器自动计算快捷高效之间的矛盾。当然随着网络规模越来越大,结构越来越复杂,联系越来越频繁,存储的内容越来越海量,对文本相似度算法的计算准确性和计算速度也提出了更高的要求,要求这些算法能够几乎在瞬间就可以精准找到检索的结果,在几乎实时就能够得到人们关注的结果,这样的话人们利用现代信息技术工作和生活的效率更高,更加人性化。这样看来,在前人的基础上深入研究文本相似度算法具有十分重要的意义。1.2研究现状在国内外对这个算法的研究多年来一直都是热点,有研究基本理论的,也有研究算法应用的,还有创新算法结构的。从国外典型的有代表性的研究来看,发表比较早的研究成果是1969年Salton和McGill的研究成果[2],这二位作者提出了“向量空间模型”算法框架,在这一个算法框架中,第一步是对要分析的文本对象采取多种其它算法预处理,第二步通过预处理来获得表示文本对象的特征向量,这个特征向量就表示文本对象,第三步利用算法计算文本特征向量的相似程度,这样的一个算法应用算法领域比较广泛,主要包括文本分类、信息检索和文档查重等方面。这属于通过文本特征向量计算文本相似度的方法,具有典型的代表性。在此基础上,逐渐发展出一种语义检索和判定文本相似度的方...