基于网贷行业新闻的文本数据挖掘文/盈灿咨询袁鑫强文本挖掘,是数据挖掘领域重要的组成部分。简单地说,文本挖掘就是通过NLP、机器学习等方法从大量的文本资料中发掘出有价值的信息。无论是微信聊天记录,还是新闻文章,亦或是古诗词等,文本挖掘的应用领域非常广泛。在网贷行业,舆情分析相对较少。究其原因,绝大多数网贷相关词汇均属于未登录词。通过手动录入的方式可以在一定程度上解决这一问题。但是其工作量巨大,而且对于纷繁复杂的人名、机构名、专业名词无法全面地录入。本文以统计方法生成行业内未登录词,并在此基础上挖掘行业及平台热点。一、新词生成为了便于说明,选取网贷之家网站上2017年4月10日发布的所有新闻,并在剔除所有非中文字符之后将其拼接在一起,生成的文本用T表示。1.建立备选词词库我们假设一段文本中所有长度大于1且不超过L的词均可以独立成词。例如,取L=5,则对于上述51550字的文本材料T就能生成51549+51548+51547+51546=206190个备选词。2.停用词过滤停用词主要是指人类语言当中的一些功能词,例如“的”,“了”等。这类词本身并没有什么实质性信息,但是由于出现频率高,会影响计算效率。结合实际内容,本文中将所有含有“的”字的备选词过滤。3.低频词过滤如果某个文本片段出现频率过低,一方面其成词可能性较小,另一方面其文本特征的偶然性较大,不适合做统计处理。从备选词的频数分布情况看,出现频率为1的词占86.50%,可以将其过滤。4.自由度判断自由度也可以理解为独立性。一个文本片段能够成词需要在上下文中保持独立性,可以自由应用。以“诺诺镑”和“诺诺镑客”为例,“诺诺镑”右邻字只有“客”一种情况。而“诺诺镑客”的右邻字有“名”、“旗”、“的”等6种情况,且各种情况的发生频率较为平均。由此可见,“诺诺镑客”的独立性较强,上下文的丰富程度较高,有更大的成词概率。为了衡量备选词的自由度,我们在这里引入信息熵的概念。简单的说,信息熵就是信息量。信息熵的大小与某一不确定性事件的可能结果数量及发生概率有关。“诺诺镑客”右邻字集的信息熵为1.7479,明显大于“诺诺镑”的0,说明其成词可能性更高。这也与上文通过直接观察所得结论一致。为方便起见,我们将所有左、右邻字信息熵较小值不大于1的备选词过滤。图1信息熵计算方法资料来源:盈灿咨询5.凝合度分析凝合度被用来形容单词的内部凝固程度。例如,对于语句“大数据、人工智能、区块链等引发的金融科技”而言,“区块链”的凝合度显然高于“等引发”。从条件概率的角度考虑,假设“区块”和“链”在语料中独立随机出现,则在两者都出现的条件下,“区块链”的出现概率约等于“区块链”出现频率除以“区块”与“链”出现频率乘积。因为“区块链”也可以拆分为“区”和“块链”,所以定义凝合度=任意拆分下的最小条件概率*文本长度*100,则“区块链”、“等引发”的凝合度分别为1.8182、0.1515。通过测试,将凝合度不大于1的备选词筛去。6.登录词过滤将通过上述步骤筛选剩余的词与已有登录词匹配,删去重复词,最终得到了53个未登录词。图显示,挖掘出的新词可以分为三类:1)人名:王晓亮、刘旭、陈一菲等;2)机构、公司名称:奥马电器、乐视、天津证监局等;3)互金及网贷行业词:薅羊毛、羊毛党、整改通知等;4)互金平台名:蚂蚁金服、诺诺镑客、鑫合汇等。图2生成的未登录词资料来源:盈灿咨询二、行业及平台热点挖掘1.行业热点词概览图3网贷行业热点词分布图资料来源:盈灿咨询基于上述未登录词生成方法和网贷之家4月份新闻舆情数据,可以得到4月份网贷行业热点词分布图。图中彩色点的大小与热点词词频正相关。总体来看,行业型热词数量较多,分布广泛。研究、理财型热词有明显的集群现象。政策型热词数量在四月下旬增长显著。表1热点区域及相关新闻事件区域新闻事件热点词A网贷之家发布P2P平台银行存管最新名单存管协议、存管指引、监管层、运营时间B保监会发文提39条风控要求重点防新业务风险保监会、关联交易、切实防范、责任追究C信而富上市环境分析美国上市、信而富、盈利能力、重复借款率D现金贷平台生存要素分析暴力催收、持牌机构、砍头息、...