一种对垃圾评论进行筛选的数学模型摘 要:目前商务网站或博客论坛允许用户发表针对产品或话题的一些评论看法,难免会存在一些虚假的或是与产品及话题无关的评论信息,这极大地误导了商家、读者以及观点挖掘系统,造成了资源的浪费
本文通过建立合理的数学模型,通过 C++及 matlab 编程求解,实现对产品垃圾评论的有效识别
针对问题一,对给定的四类不同情形,首先建立文本处理模型,通过C++进行文本统计,根据统计结果,生成产品标准关键词向量和评论向量;再次,通过垃圾评论判断进行初级判断; 再通过 matlab 相似度计算模型, 得到评论与产品关键词的相似度;最后通过与设定阈值比较判定评论是否为垃圾评论,判断正确率为100%
针对问题二,相对问题一,评论数量增加,因此充分考虑主题词、广告词、情感词、违禁词、相似度、评论重复数及特殊符号等评论特征对评论结果的影响,首先采用 AdaBoost 算法训练出合理的强分类器,对垃圾评论和正常评论实现有效分类;其次,通过建立准确率和召回率综合指标评价模型最筛选结果做出评价
针对问题三,对一般产品的产品评价集合,在问题(2)模型的基础上建立更一般的改进模型,通过对样本权重的限制和相似度的改进,提高算法的识别率
针对该类问题识别的特征,从关键词词库的扩充、产品评论特征的识别、样本的选择权重及相似度确定等角度提出了针对该类问题建立模型的合理建议关键字: 垃圾评论识别, C++,matlab,评论特征, AdaBoost 算法,权重1 一、 问题重述评论筛选是对给定的语料集合中,要求系统识别出文档是否为垃圾观点文档
要求完成以下问题:1)针对给定的情形,建立合理的数学模型进行识别,制定算法流程
并通过程序验证,得到正确识别率
2)在网络上收集一个更大的关于小米手机的评价集合,建立合理的数学模型和算法进行识别,并得到结论
3)对一般的产品评价集合,讨论并建立更一