一种对垃圾评论进行筛选的数学模型摘 要:目前商务网站或博客论坛允许用户发表针对产品或话题的一些评论看法,难免会存在一些虚假的或是与产品及话题无关的评论信息,这极大地误导了商家、读者以及观点挖掘系统,造成了资源的浪费。本文通过建立合理的数学模型,通过 C++及 matlab 编程求解,实现对产品垃圾评论的有效识别。针对问题一,对给定的四类不同情形,首先建立文本处理模型,通过C++进行文本统计,根据统计结果,生成产品标准关键词向量和评论向量;再次,通过垃圾评论判断进行初级判断; 再通过 matlab 相似度计算模型, 得到评论与产品关键词的相似度;最后通过与设定阈值比较判定评论是否为垃圾评论,判断正确率为100%。针对问题二,相对问题一,评论数量增加,因此充分考虑主题词、广告词、情感词、违禁词、相似度、评论重复数及特殊符号等评论特征对评论结果的影响,首先采用 AdaBoost 算法训练出合理的强分类器,对垃圾评论和正常评论实现有效分类;其次,通过建立准确率和召回率综合指标评价模型最筛选结果做出评价。针对问题三,对一般产品的产品评价集合,在问题(2)模型的基础上建立更一般的改进模型,通过对样本权重的限制和相似度的改进,提高算法的识别率。针对该类问题识别的特征,从关键词词库的扩充、产品评论特征的识别、样本的选择权重及相似度确定等角度提出了针对该类问题建立模型的合理建议关键字: 垃圾评论识别, C++,matlab,评论特征, AdaBoost 算法,权重1 一、 问题重述评论筛选是对给定的语料集合中,要求系统识别出文档是否为垃圾观点文档。要求完成以下问题:1)针对给定的情形,建立合理的数学模型进行识别,制定算法流程。并通过程序验证,得到正确识别率。2)在网络上收集一个更大的关于小米手机的评价集合,建立合理的数学模型和算法进行识别,并得到结论。3)对一般的产品评价集合,讨论并建立更一般的模型,并给出该类识别问题的看法。四种垃圾评论分类如下:(1) 确实是评论,但只对品牌和制造商,甚至是站点评论,而没有针对当前产品本身进行评论,因此这种评论是无意义的。(2) 确实是对产品进行了评论,但是评错了产品。(3) 广告评论。(4) 无关的文本,大致包括个人的消费体经历、人身攻击和其它无关文本。二、模型假设与符号说明2.1 模型假设1.从产品说明中提取的一个标准特征向量可以代表产品说明;2.从评论中提取的一个评论特征向量可以代表此评论;3.本文所建立...