目录摘要.....................................................(1)Abstract.................................................(3)前言.....................................................(5)第1章绪论..............................................(6)1.1研究背景...........................................(6)1.2研究意义...........................................(6)1.3国内外研究现状.....................................(7)1.3.1语料库构建....................................(7)1.3.2情绪分类......................................(8)1.3主要内容...........................................(9)1.4文章结构...........................................(9)第2章相关知识介绍.....................................(11)2.1文本表示模型......................................(11)2.1.1向量空间模型.................................(11)2.1.2分布式词向量模型.............................(11)2.2分类模型..........................................(12)2.2.1最大熵模型...................................(12)2.2.2长短时记忆神经网络...........................(15)2.3性能评测指标......................................(16)2.4本章小结..........................................(17)第3章基于字词融合的微博情绪分类方法...................(18)3.1问题描述及相关研究................................(18)3.2情绪语料库的构建..................................(19)3.3基于字词融合的情绪分类方法........................(20)3.4实验结果与分析....................................(21)3.4.1实验设置.....................................(21)3.4.2实验结果与分析...............................(22)3.5本章小结..........................................(23)第4章总结与展望.......................................(24)参考文献................................................(26)致谢....................................................(28)摘要随着互联网的迅猛发展和移动终端的快速普及,人们的日常交流日益依赖于社交网络,互联网成为海量信息的重要载体。而微博就是一个热门的互联网社交媒体,用户以短文本的形式发表评论观点,其中包含大量情感信息。面向微博的情绪分类就是要通过分析用户发表的言论,判断出其中所包含的情绪,如开心、愤怒、悲伤等。研究面向微博的情绪分类方法在网络舆情风险分析、信息预测、情感机器人等方面具有重要研究意义和应用潜能,是自然语言处理领域的一项热点研究任务。本文主要在一个规模较大的微博语料库上,针对微博情绪分类方法进行研究。首先,对于收集到的微博文本,本文采取基本情绪与复合情绪相结合的情绪分类体系,先从基本情绪中进行选择,若不符合任何一种基本情绪则标注为复合情绪中相应的一种,由此构建了一个中文微博语料库。在标注过程中,每条语料由两个人分别进行标注,根据标注结果是否一致来决定是否需要第三人参与标注,一定程度上保证了语料标注的准确性和一致性。通过观察标注得到的最后结果,本文使用的四种基本情绪与三种复合情绪可以有效的区分微博语料中所包含的各种情绪。其次,本文使用最大熵模型和长短时记忆神经网络(LSTM)作为情绪分类的基准模型。最大熵是一种基于统计的机器学习方法,将统计语言问题看成一个求解受限概率分布问题,能够较好地包容各种约束信息[1]。最大熵模型可以得到所有满足约束条件的模型中熵最大的一个模型,准确率较高,可以更高效便捷地对多类分类任务进行建模;其次,可以灵活地选择特征,特征不必具备条件独立性,建模时只需关注怎样选择特征而不需考虑如何使用这些特征;此外,在输出分类结果的同时,还可以输出所有类别的概率值。因此,在自然语言处理任务中,最大熵模型被广泛应用。长短时记忆神经网络是在传统循环神经网络(RNN)的基础上进一步改进的新...