行业大数据应用开发和分析平台及案例应用1 .背景2000 年后,随着互联网的快速开展,互联网中网页的数量呈几何式增长, 大规模数据分析相关应用和技术开始倍受关注.至 2000 年底,全球网页的数量 已到达 40 亿,互联网用户从网络中检索信息越来越不方便,为解决这一问题, 谷歌等大型互联网公司率先建立了覆盖数十亿网页的索引库,并为互联网用户提 供精准的检索效劳,有效地提升了互联网内容的检索效率.随着网页库的不断增 大,需要存储、治理和处理的数据量不断增大、种类不断增多,这对互联网公司 提出新的挑战,传统的技术在效率和效果上已经无法满足实际的应用需求.为以 较低本钱实现对以往技术无法到达的数据处理规模 ,Google 分别提出分布式系 统 Google File System〔GFS〕、分布式并行计算框架 MapReduce 和分布式数据库 BigTable 等,这些技术奠定了大规模数据处理和应用根底.随着大规模数据在互联网领域的商业价值的表达,启发了社会对数据价值的 重新审视.年,麦肯锡、世界经济论坛等知名机构和组织对大规模数据分析领 域进行了研究总结,随即世界范围的“大数据"〔Big Data〕热潮发起.政府、医 药、电信、银行、制造等经过多年积累而掌握了大数据的行业开始关注以“数据 驱动创新〞的领域,并且都想利用这些数据〔命名为“行业大数据〕,从中获取 “知识〞,从而帮助提升行业建设并创造更高的经济价值.行业大数据产业的开展急需面向行业的大数据应用开发和分析平台的支撑. 尽管目前业界已有诸多数据挖掘工具,如 KNIME、Clementine> SPSS、WEKA 等.然而这些工具仅针对数据分析单一环节,并且,这些工具的可扩展性不高, 功能扩展具有局限性,还不能有效快捷的行业订制化大数据应用开发和部署.建 立统一、灵活、易用的行业大数据应用开发和分析平台具有重要的研究价值和实 际应用价值,它将进一步提升行业大数据的实际价值,推动行业大数据技术的进 步,带动各行业大数据智能应用产业的开展.2 .相关现状图 1 传统数据挖掘工具的根本框架为使数据挖掘过程方便易用,各厂商开发了可视化、可配置的数据挖掘工具, 如 KNIME、Clementine 等〔见图 1〕.这种界面友好的系统交互模式是可以被借 鉴.然而,目前常见的数据挖掘工具的根本应用模式〔见图 2〕无法满足目前大 数据应用开发和分析的实际需求.图 2 传统数据挖掘工具的根本应用模式首先,输入系统的数据一般要求事先人工构造并结构化,而大数据具有规模 大、结构复杂...