网络评论中情感词的获取及极性判断方法比较许璐蕾(苏州市职业大学,江苏苏州215104)[摘要]研究了情感分析中情感词的识别、褒贬分析
情感词识别是根据词义并结合上下文判断这个词是否有情感倾向性
阐述了情感词识别和情感词极性判断的两种方法和技术
实验结果表明两种方法都得到了较好的效果
[关键词]情感词;机器学习;极性判别information)来判断极性[4]
方法三:找出语料中包含种子情感词和候选情感词的并列型复句和转折型复句,统计候选情感词与任意种子情感词共现频数等参数后判定,加入种子词典[5]
在获取情感词的任务中,选择了基于种子词典加统计的方式和基于机器学习的方式进行了实验,并比较它们之间的优劣
1基于种子词典加统计的方式该算法思路是以种子词典为基础,确定候选词,并根据统计模型计算候选词的置信度,将置信度大于阈值的候选词加到扩展词典中[5]
极性的判断依赖种子词在上下文(context)语境中的语义信息和位置信息
(1)种子词典的选择利用HowNet提供的“中英文情感分析用词语集”中的中文正面情感词、负面情感词、正面评价词、负面评价词四个文件挑选出情感词构成种子情感词库
(2)语料准备从互联网中使用爬虫抓取“手机、笔记本、数码相机、汽车”等多个领域带有倾向性的产品评论,去除无关信息和代码后作为语料
(3)候选情感词获取首先对语料进行分句、分词,得到包含种子情感词的句子
对于包含标点符号的句子,根据每个子句的长度来识别它属于单句还是复句
这是一种比较粗略的划分,但在没有对句子进行较为精确地句法分析时,这也是一个比较简单和有效地策略
接着对复句需要确定复句关系
我们将复句关系归为两大类:并列关系和转折关系
我们根据出现在子句开头的复句关系词来判断复句关系
对于不含复句关系词的复句,无法借助句法深层的结构关系和语义关系来精准地确定复句关系,可以根据经验粗略地将其均归为并