基于网贷行业新闻的文本数据挖掘VIP免费

下载本文档

阅读 143
下载 15
格式 docx
大小 1.1 MB
约7页
2024-09-25 发布于山西
收藏
评论
点赞(0)
海报
举报

1/7页

2/7页

3/7页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

基于网贷行业新闻的文本数据挖掘文/盈灿咨询袁鑫强文本挖掘，是数据挖掘领域重要的组成部分。简单地说，文本挖掘就是通过NLP、机器学习等方法从大量的文本资料中发掘出有价值的信息。无论是微信聊天记录，还是新闻文章，亦或是古诗词等，文本挖掘的应用领域非常广泛。在网贷行业，舆情分析相对较少。究其原因，绝大多数网贷相关词汇均属于未登录词。通过手动录入的方式可以在一定程度上解决这一问题。但是其工作量巨大，而且对于纷繁复杂的人名、机构名、专业名词无法全面地录入。本文以统计方法生成行业内未登录词，并在此基础上挖掘行业及平台热点。一、新词生成为了便于说明，选取网贷之家网站上2017年4月10日发布的所有新闻，并在剔除所有非中文字符之后将其拼接在一起，生成的文本用T表示。1.建立备选词词库我们假设一段文本中所有长度大于1且不超过L的词均可以独立成词。例如，取L=5，则对于上述51550字的文本材料T就能生成51549+51548+51547+51546=206190个备选词。2.停用词过滤停用词主要是指人类语言当中的一些功能词，例如“的”，“了”等。这类词本身并没有什么实质性信息，但是由于出现频率高，会影响计算效率。结合实际内容，本文中将所有含有“的”字的备选词过滤。3.低频词过滤如果某个文本片段出现频率过低，一方面其成词可能性较小，另一方面其文本特征的偶然性较大，不适合做统计处理。从备选词的频数分布情况看，出现频率为1的词占86.50%，可以将其过滤。4.自由度判断自由度也可以理解为独立性。一个文本片段能够成词需要在上下文中保持独立性，可以自由应用。以“诺诺镑”和“诺诺镑客”为例，“诺诺镑”右邻字只有“客”一种情况。而“诺诺镑客”的右邻字有“名”、“旗”、“的”等6种情况，且各种情况的发生频率较为平均。由此可见，“诺诺镑客”的独立性较强，上下文的丰富程度较高，有更大的成词概率。为了衡量备选词的自由度，我们在这里引入信息熵的概念。简单的说，信息熵就是信息量。信息熵的大小与某一不确定性事件的可能结果数量及发生概率有关。“诺诺镑客”右邻字集的信息熵为1.7479，明显大于“诺诺镑”的0，说明其成词可能性更高。这也与上文通过直接观察所得结论一致。为方便起见，我们将所有左、右邻字信息熵较小值不大于1的备选词过滤。图1信息熵计算方法资料来源：盈灿咨询5.凝合度分析凝合度被用来形容单词的内部凝固程度。例如，对于语句“大数据、人工智能、区块链等引发的金融科技”而言，“区块链”的凝合度显然高于“等引发”。从条件概率的角度考虑，假设“区块”和“链”在语料中独立随机出现，则在两者都出现的条件下，“区块链”的出现概率约等于“区块链”出现频率除以“区块”与“链”出现频率乘积。因为“区块链”也可以拆分为“区”和“块链”，所以定义凝合度=任意拆分下的最小条件概率*文本长度*100，则“区块链”、“等引发”的凝合度分别为1.8182、0.1515。通过测试，将凝合度不大于1的备选词筛去。6.登录词过滤将通过上述步骤筛选剩余的词与已有登录词匹配，删去重复词，最终得到了53个未登录词。图显示，挖掘出的新词可以分为三类：1）人名：王晓亮、刘旭、陈一菲等；2）机构、公司名称：奥马电器、乐视、天津证监局等；3）互金及网贷行业词：薅羊毛、羊毛党、整改通知等；4）互金平台名：蚂蚁金服、诺诺镑客、鑫合汇等。图2生成的未登录词资料来源：盈灿咨询二、行业及平台热点挖掘1.行业热点词概览图3网贷行业热点词分布图资料来源：盈灿咨询基于上述未登录词生成方法和网贷之家4月份新闻舆情数据，可以得到4月份网贷行业热点词分布图。图中彩色点的大小与热点词词频正相关。总体来看，行业型热词数量较多，分布广泛。研究、理财型热词有明显的集群现象。政策型热词数量在四月下旬增长显著。表1热点区域及相关新闻事件区域新闻事件热点词A网贷之家发布P2P平台银行存管最新名单存管协议、存管指引、监管层、运营时间B保监会发文提39条风控要求重点防新业务风险保监会、关联交易、切实防范、责任追究C信而富上市环境分析美国上市、信而富、盈利能力、重复借款率D现金贷平台生存要素分析暴力催收、持牌机构、砍头息、...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

基于网贷行业新闻的文本数据挖掘

基于网贷行业新闻的文本数据挖掘文/盈灿咨询袁鑫强文本挖掘，是数据挖掘领域重要的组成部分

简单地说，文本挖掘就是通过NLP、机器学习等方法从大量的文本资料中发掘出有价值的信息

无论是微信聊天记录，还是新闻文章，亦或是古诗词等，文本挖掘的应用领域非常广泛

在网贷行业，舆情分析相对较少

究其原因，绝大多数网贷相关词汇均属于未登录词

通过手动录入的方式可以在一定程度上解决这一问题

但是其工作量巨大，而且对于纷繁复杂的人名、机构名、专业名词无法全面地录入

本文以统计方法生成行业内未登录词，并在此基础上挖掘行业及平台热点

一、新词生成为了便于说明，选取网贷之家网站上2017年4月10日发布的所有新闻，并在剔除所有非中文字符之后将其拼接在一起，生成的文本用T表示

建立备选词词库我们假设一段文本中所有长度大于1且不超过L的词均可以独立成词

例如，取L=5，则对于上述51550字的文本材料T就能生成51549+51548+51547+51546=206190个备选词

停用词过滤停用词主要是指人类语言当中的一些功能词，例如“的”，“了”等

这类词本身并没有什么实质性信息，但是由于出现频率高，会影响计算效率

结合实际内容，本文中将所有含有“的”字的备选词过滤

低频词过滤如果某个文本片段出现频率过低，一方面其成词可能性较小，另一方面其文本特征的偶然性较大，不适合做统计处理

从备选词的频数分布情况看，出现频率为1的词占86

50%，可以将其过滤

自由度判断自由度也可以理解为独立性

一个文本片段能够成词需要在上下文中保持独立性，可以自由应用

以“诺诺镑”和“诺诺镑客”为例，“诺诺镑”右邻字只有“客”一种情况

而“诺诺镑客”的右邻字有“名”、“旗”、“的”等6种情况，且各种情况的发生频率较为平均

由此可见，“诺诺镑客”的独立性较强，上下文的丰富程度较高，有更大的成词概率

为了衡量备选词的

您可能关注的文档

文章天下 + 关注: 实名认证
内容提供者

各种文档应有尽有

收藏店铺进入空间

基于网贷行业新闻的文本数据挖掘VIP免费

基于网贷行业新闻的文本数据挖掘

您可能关注的文档

相关文档

热门下载

相关标签