基于数加分析政府工作报告VIP免费

下载本文档

阅读 120
下载 16
格式 docx
大小 707.34 KB
约10页
2024-09-25 发布于山西
收藏
评论
点赞(0)
海报
举报

1/10页

2/10页

3/10页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/10

文本预览下载提示常见问题

基于数加分析政府工作报告本文章来自于阿里云云栖社区摘要：摘要：3月5日，第十二届全国人民代表大会第五次会议在北京人民大会堂开幕，两会期间的“部长通道”是每年两会的一个亮点，李克强总理多次强调要让部长们当“第一新闻发言人”，积极回应舆论关切，给社会各界一个稳定预期。摘要：3月5日，第十二届全国人民代表大会第五次会议在北京人民大会堂开幕，两会期间的“部长通道”是每年两会的一个亮点，李克强总理多次强调要让部长们当“第一新闻发言人”，积极回应舆论关切，给社会各界一个稳定预期。笔者从新浪、搜狐、网易等各大门户网站上爬取部长答记者问的相关新闻数据导入到阿里数加平台，基于阿里数加算法平台与Maxcomputer，采用分词、TFIDF、LDA、聚类等文本分析算法，分析两会部长通道都回答了哪些热点问题，都有哪些主题。另外分析了40年《政府工作报告》中关注焦点的变化，以及在2017年的《政府工作报告》又出现了哪些新词汇与热词。一、文本分析架构文本分析架构图1.数据源：主要为互联网各大网站上的文本数据；2.数据采集：采用爬虫技术，获取网站的文本数据；3.数据同步至阿里云：使用DataX工具将文本数据导入到在ODPS建立的表中；4.流程计算：阿里云建立算法分析流程；5.分析结果：对计算出的词频以及主题存储于表；6.数据可视化展示：从数据库中读取结果数据进行可视化展示。二、分析方法文本分析算法流程图1.本文中部长通道答记者问的数据，主要来源对新浪、搜狐等各大新闻网站所爬取的数据。1978年至2017年《政府工作报告》从中国政府网中爬取。数据的获取采用python脚本，应用urllib2与bs4两个包，其中bs4调用BeautifulSoup类select方法，分析网页的HTML结构，找到所需内容的id与class，获取其中的文本数据。1.获取的文本数据，导入到阿里数加平台，数据表包括三个字段，id，title，content，分别代表文本编号，标题以及文本内容。1.在数加的算法平台建立文本分析算法流程，流程如上图所示。1.采用数加组件中文本分析的splitword对获取的文本进行分词，分词结果均去掉数字、单字、标点符号。1.为了提高分词的精确程度，这里引入了自定义词典，自定义词典主要包含了往年人民网和新华网统计的两会热词。1.分词后调用停用词过滤算法，过滤停用词。停用词表从网上下载，笔者再进行了一些补充。1.计算文档词频矩阵，调用词频统计算法，主要用于计算文档单词出现的次数（词频），得到分词与文档的稀疏矩阵，该稀疏矩阵同时也为LDA模型的输入。1.在分词基础上，采用TF-IDF算法。词语的重要性随着它在文本中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。可以得到每篇文档的特征词以及特征词矩阵。1.对于词频统计的结果，采用LDA模型，调用文本分析中的pLDA算法，从文本数据中提取潜在的主题信息，LDA模型主要用于识别文档中的主题分布情况，是一种无监督式的学习方法。通过LDA我们可以得到所有文档的主题数量，每篇文档所属主题的概率以及每个主题下的关键词。1.可视化展示。将流程计算的结果数据，进行可视化展示。三、部长通道新闻分析1、部长通道新闻数量与舆情分析分析30天的新闻对两会部长通道报道数量走势，3月7日，3月15日达到了两个峰值。对新闻报道的舆情统计，72.6%的新闻表示中立，有4.1%的舆情为负面。部长通道新闻数量趋势图新闻舆论统计图2、部长通道新闻主题在人民大会堂“两会部长通道”上，教育部部长、商务部部长、科技部部长、央行行长等部位领导分别就记者提出的问题进行回答，听听都有哪些部长发声，都说了些什么。通过对获取的新闻数据建立主题模型，提取如下主题，以及每个主题下的关键词：主题0主题1主题2主题5主题7主题8主题9主题10主题12主题13企业中国预算校园增长产能监管地方质量污染改革发展中国欺凌服务业煤炭风险改革农业全国市场企业王毅教育统计生产金融企业韩长赋陈吉宁中央产业审查机制同比价格银行政府转基因环保资本制造人大代表解决数据煤矿市场财政推进治理重组苗圩关系陈宝生百分点市场发展报告耕地企业肖亚庆政策翻译力量投资措施周小川政策生产解决主任产品意见建议学校市场企业投资预算国家...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

基于数加分析政府工作报告

基于数加分析政府工作报告本文章来自于阿里云云栖社区摘要：摘要：3月5日，第十二届全国人民代表大会第五次会议在北京人民大会堂开幕，两会期间的“部长通道”是每年两会的一个亮点，李克强总理多次强调要让部长们当“第一新闻发言人”，积极回应舆论关切，给社会各界一个稳定预期

摘要：3月5日，第十二届全国人民代表大会第五次会议在北京人民大会堂开幕，两会期间的“部长通道”是每年两会的一个亮点，李克强总理多次强调要让部长们当“第一新闻发言人”，积极回应舆论关切，给社会各界一个稳定预期

笔者从新浪、搜狐、网易等各大门户网站上爬取部长答记者问的相关新闻数据导入到阿里数加平台，基于阿里数加算法平台与Maxcomputer，采用分词、TFIDF、LDA、聚类等文本分析算法，分析两会部长通道都回答了哪些热点问题，都有哪些主题

另外分析了40年《政府工作报告》中关注焦点的变化，以及在2017年的《政府工作报告》又出现了哪些新词汇与热词

一、文本分析架构文本分析架构图1

数据源：主要为互联网各大网站上的文本数据；2

数据采集：采用爬虫技术，获取网站的文本数据；3

数据同步至阿里云：使用DataX工具将文本数据导入到在ODPS建立的表中；4

流程计算：阿里云建立算法分析流程；5

分析结果：对计算出的词频以及主题存储于表；6

数据可视化展示：从数据库中读取结果数据进行可视化展示

二、分析方法文本分析算法流程图1

本文中部长通道答记者问的数据，主要来源对新浪、搜狐等各大新闻网站所爬取的数据

1978年至2017年《政府工作报告》从中国政府网中爬取

数据的获取采用python脚本，应用urllib2与bs4两个包，其中bs4调用BeautifulSoup类select方法，分析网页的HTML结构，找到所需内容的id与class，获取其中的文本数据

获取的文本数据，导入到阿里数加平台，数据表包括三个字段，id，

您可能关注的文档

文章天下 + 关注: 实名认证
内容提供者

各种文档应有尽有

收藏店铺进入空间

基于数加分析政府工作报告VIP免费

基于数加分析政府工作报告

您可能关注的文档

相关文档

热门下载

相关标签