网络评论中情感词的获取及极性判断方法比较许璐蕾(苏州市职业大学,江苏苏州215104)[摘要]研究了情感分析中情感词的识别、褒贬分析。情感词识别是根据词义并结合上下文判断这个词是否有情感倾向性。阐述了情感词识别和情感词极性判断的两种方法和技术。实验结果表明两种方法都得到了较好的效果。[关键词]情感词;机器学习;极性判别information)来判断极性[4]。方法三:找出语料中包含种子情感词和候选情感词的并列型复句和转折型复句,统计候选情感词与任意种子情感词共现频数等参数后判定,加入种子词典[5]。在获取情感词的任务中,选择了基于种子词典加统计的方式和基于机器学习的方式进行了实验,并比较它们之间的优劣。3.1基于种子词典加统计的方式该算法思路是以种子词典为基础,确定候选词,并根据统计模型计算候选词的置信度,将置信度大于阈值的候选词加到扩展词典中[5]。极性的判断依赖种子词在上下文(context)语境中的语义信息和位置信息。(1)种子词典的选择利用HowNet提供的“中英文情感分析用词语集”中的中文正面情感词、负面情感词、正面评价词、负面评价词四个文件挑选出情感词构成种子情感词库。(2)语料准备从互联网中使用爬虫抓取“手机、笔记本、数码相机、汽车”等多个领域带有倾向性的产品评论,去除无关信息和代码后作为语料。(3)候选情感词获取首先对语料进行分句、分词,得到包含种子情感词的句子。对于包含标点符号的句子,根据每个子句的长度来识别它属于单句还是复句。这是一种比较粗略的划分,但在没有对句子进行较为精确地句法分析时,这也是一个比较简单和有效地策略。接着对复句需要确定复句关系。我们将复句关系归为两大类:并列关系和转折关系。我们根据出现在子句开头的复句关系词来判断复句关系。对于不含复句关系词的复句,无法借助句法深层的结构关系和语义关系来精准地确定复句关系,可以根据经验粗略地将其均归为并列复句。我们在选择候选情感词时,需要基于如下的判断:(1)情感词的词性可能为形容词和动词;(2)情感词在句子中会并列出现或对称出现。比如:A这台笔记本漂亮、大方、便宜。这是并列出现。B这台笔记本外观很漂亮,散热也很优秀。这是对称出1.引言随着web2.0的盛行,人们喜欢在网上购物,也喜欢对商品进行评价。这些评价除了可以给商家厂家提供改进的意见外,还可以给其他购买者提供不小的指导性意见。比如一台笔记本的评价为:图1评价示例在这些评价中屏幕的“宽”,键盘的“舒服”等都是直接给予我们信息的词,我们常常把它们叫做情感词。2.情感词及情感词典在评论性文章里,情感词常常表达了作者的某种情感倾向[1]。情感词的获取是褒贬分析的基础。情感词的获取对文章褒贬的极性判别有着重大的意义。在情感词中,大体分为褒义、贬义和中性三类。其中褒义表示对产品正面的评价,比如:“这个型号的笔记本运行速度快”等。贬义表示对产品负面的评价,比如:“这个产品有危险”。中性词一般不能表达出评论者的倾向,比如:“我今天买了新手机”。我们需要通过有限的褒贬种子词典和语料资源构建起褒义词词典与贬义词词典,词典中有情感词、词性、褒贬性等元素。其中褒贬性为“1”表示这个词是褒义词,褒贬性为“-1”为贬义词,褒贬性为“0”为中性词[1]。实验显示,部分情感词极性相同但是它们之间有数量上的区别,因此比较合理的方法是采用-1至1的实数表示。正的数字范围表示褒义词,负的实数范围表示贬义词,中性词仍然用0表示。3.情感词的获取及判断在众多的情感词获取的方法中,目前有:方法一:以HowNet[2]情感分析用词表作为基本辞典[3],人工整理带有褒贬性标注信息的句子后对词典中的情感词作频率统计,以此为依据标识词语的极性的褒贬。方法二:从HowNet中挑选出情感词构建种子情感词典,找出与词典中的词在同一个句子中共同出现的情感词,计算这个候选情感词和种子情感词之间的S0-PMI(semanticorientation-pointwisemutual——————————————作者简介:许璐蕾,女,江苏苏州人,硕士,讲师,研究方向:计算机网络。—53—屏幕宽,键盘舒服,内存大。缺点:硬盘小了点,音效差。既然买了,就用着。(1)构...