基于网贷行业新闻的文本数据挖掘文/盈灿咨询袁鑫强文本挖掘,是数据挖掘领域重要的组成部分
简单地说,文本挖掘就是通过NLP、机器学习等方法从大量的文本资料中发掘出有价值的信息
无论是微信聊天记录,还是新闻文章,亦或是古诗词等,文本挖掘的应用领域非常广泛
在网贷行业,舆情分析相对较少
究其原因,绝大多数网贷相关词汇均属于未登录词
通过手动录入的方式可以在一定程度上解决这一问题
但是其工作量巨大,而且对于纷繁复杂的人名、机构名、专业名词无法全面地录入
本文以统计方法生成行业内未登录词,并在此基础上挖掘行业及平台热点
一、新词生成为了便于说明,选取网贷之家网站上2017年4月10日发布的所有新闻,并在剔除所有非中文字符之后将其拼接在一起,生成的文本用T表示
建立备选词词库我们假设一段文本中所有长度大于1且不超过L的词均可以独立成词
例如,取L=5,则对于上述51550字的文本材料T就能生成51549+51548+51547+51546=206190个备选词
停用词过滤停用词主要是指人类语言当中的一些功能词,例如“的”,“了”等
这类词本身并没有什么实质性信息,但是由于出现频率高,会影响计算效率
结合实际内容,本文中将所有含有“的”字的备选词过滤
低频词过滤如果某个文本片段出现频率过低,一方面其成词可能性较小,另一方面其文本特征的偶然性较大,不适合做统计处理
从备选词的频数分布情况看,出现频率为1的词占86
50%,可以将其过滤
自由度判断自由度也可以理解为独立性
一个文本片段能够成词需要在上下文中保持独立性,可以自由应用
以“诺诺镑”和“诺诺镑客”为例,“诺诺镑”右邻字只有“客”一种情况
而“诺诺镑客”的右邻字有“名”、“旗”、“的”等6种情况,且各种情况的发生频率较为平均
由此可见,“诺诺镑客”的独立性较强,上下文的丰富程度较高,有更大的成词概率
为了衡量备选词的