文本相似度算法研究摘要基于电子作业检查等各类电子文档对比需要,本文探究了电子文档相似度算法,以便解决两个电子文档是否相同,相似比例为多少的问题,考虑到文档的相似度又可分成段落相似度、句子相似度来进行度量,所以该研究课题首先是定义了文本相似度,其次通过研究现有相似度算法,重点是余弦相似性算法、简单共有词相似度算法、欧几里得距离相似度算法,最后在分析余弦相似性算法、简单共有词相似度算法、欧几里得距离相似度算法优缺点的基础上,提出了改进的新的相似度算法,对于余弦相似性算法、简单共有词相似度算法、欧几里得距离相似度进行了改进,提高了3种算法检测的准确度
关键词文本相似度;余弦定理;简单共有词;欧几里得距离;相似度算法ResearchonTextSimilarityAlgorithmsAbstractInordertosolvetheproblemofwhethertwoelectronicdocumentsarethesameandhowmuchthesimilarityratiois,thesimilarityalgorithmofelectronicdocumentsisexploredinthispaper,basedontheneedofelectronicdocumentcomparison
Consideringthatthesimilarityofdocumentscanbemeasuredbyparagraphsimilarityandsentencesimilarity,thisresearchfirstlydefinesthetextsimilarity,andsecondly,throughtheresearch,thispaperputsforwardthatthesimilarityofdocumentscanbemeasuredbyparagraphs