精品文档---下载后可任意编辑B2C 网站商品评论挖掘技术的讨论中期报告一、讨论内容本文主要讨论 B2C 网站商品评论的挖掘技术,包括数据采集、预处理、情感分析及主题识别等环节
具体讨论内容如下:1
数据采集在讨论过程中,需要选择合适的 B2C 网站和商品进行数据采集
数据采集的方式可以是爬取网页内容和利用 API 猎取数据
在数据采集过程中,需要考虑到数据的质量、猎取速度和存储方式等因素
预处理在实际的商品评论中,存在大量的无用信息,例如标点符号、停用词、HTML 标签等
为了提高情感分析和主题识别的准确性,需要对数据进行预处理,例如去除无用信息、分词、词性标注、去重等操作
情感分析在商品评论中,包含了消费者对商品的态度和情感评价
通过情感分析的方式,可以自动识别评论中的情感,例如正面评价或负面评价
情感分析可以采纳基于词典的方法或者基于机器学习的方法
主题识别商品评论中还包含了消费者对商品的具体评价内容,如性能、价格、外观等
通过主题识别的方式,可以自动识别评论中的主要话题,从而实现对商品品质的综合评价
主题识别可以采纳基于 LDA 的主题模型或基于聚类的方法
二、讨论进展1
数据采集已经选定了京东商城和天猫商城作为数据采集网站,并通过爬虫程序猎取了大量的商品评论数据
采集数据的质量较高,涵盖了多个商品类别和品牌
预处理正在进行数据预处理的工作,主要包括对评论文本进行清洗、分词和去重等操作
已经选取了 jieba 分词工具和 stopwords 停用词表进行数据预处理
精品文档---下载后可任意编辑3
情感分析正在进行基于词典的情感分析方法的讨论,选取了情感词典和程度副词词典进行实验
通过实验发现,情感词典的覆盖率较低,需要对词典进行补充和扩展
主题识别正在进行基于 LDA 主题模型的主题识别方法的讨论,选取了gensim 作为主题模