下载后可任意编辑大数据在选题策划中的应用策划书据全球权威的IT讨论与咨询公司Gartner于20xx年9月发布的大数据分析报告显示,全球范围内的媒体和通信行业以及银行金融业站在了大数据投资的最前沿
相比之下,出版业作为文化产业,承载着文化传播与文化传承的社会功能,然而在利用大数据洞悉读者需求上表现欠佳,所以,如何借助不断增长的大数据进行信息和知识的搜集组织和传播,成为出版企业亟待解决的问题
出版企业可利用的大数据的具体形式对于“大数据”(BigData),讨论机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
举个例子,1分钟的时间内,新浪发送2万条微博,苹果下载4
7万次应用,淘宝卖出6万件商品,人人网发生30万次访问,百度产生90万次搜索查询
由此可见,数据规模的急剧膨胀,各行业累积的数据量越来越巨大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系统、处理模式的能力范围,于是“大数据”这样一个“无穷大”的概念才会应运而生
大数据的特点可以被归纳为:数量巨大、类型多样、实时快速、价值高但密度低
正式基于这样的特点,出版企业可以结合产业的优势对大数据进行充分的挖掘和利用
下载后可任意编辑(1)Web文本挖掘
大数据的核心是挖掘庞大数据库的独有价值
面对因为网络的飞速进展而带来的信息膨胀尤其是以半结构化或非结构化为主的文本信息,人们迫切需要讨论出方便有效的工具去从中提取符合需要的“简洁的”“精炼的”“可理解的”知识,Web文本挖掘技术由此产生
而利用Web文本挖掘发现大数据的价值也成为可能
文本挖掘是近几年来数据挖掘领域的一个新兴分支
文本挖掘也称为文本数据库中的知识发现,是从大量文本的集合或语料库中抽取事先未知的“可理解的”有潜在有用价值的模式和知识
而随着网络技术的飞速进