大数据处理三大瓶颈:大容量、多格式和速度 导读:Yahoo CTO Ray mie Stata是领导海量数据分析引擎的关键人物。IBM 和 Hadoop将更多的精力专注在海量数据上,海量数据正在潜移默化的改变企业和 IT 部门。 越来越多的大企业的数据集以及创建需要的一切技术,包括存储、网络、分析、归档和检索等,这些被认为是海量数据。这些大量信息直接推动了存储、服务器以及安全的发展。同时也是给 IT 部门带来了一系列必须解决的问题。 信息技术研究和分析的公司 Gartner 认为海量数据处理应该是将大量的不同种类以及结构化和非结构化的数据通过网络汇集到处理器和存储设备之中,并伴随着将这些数据转换为企业的商业报告。 海量数据处理的三个主要因素:大容量数据、多格式数据和速度 大容量数据(TB 级、PB 级甚至EB 级):人们和机器制造的越来越多的业务数据对IT 系统带来了更大的挑战,数据的存储和安全以及在未来访问和使用这些数据已成 为难 点 。 多格式数据:海量数据包括了越来越多不同格式的数据,这些不同格式的数据也需要不同的处理方 法 。从 简 单 的电 子 邮 件 、数据日 志 和信用卡 记 录 ,再 到仪 器收 集到的科 学 研究数据、医 疗 数据、财 务数据以及丰 富 的媒 体 数据(包括照 片 、音 乐 、视 频 等)。 速度:速度是指 数据从 端 点 移动到处理器和存储的速度。 Kusnetzky 集团 的分析师 Dan Kusnetzky 在其 博 客 表 示 “简 单 的说 ,大数据是指 允 许 组 织 创建、操 作 和管 理的庞 大的数据集和存储设施 工 具 ”。这是否 意 味 着将来将会 出 现 比 TB 和 PB更大的数据集吗 ? 供 应商给出 的回 应是“会 出 现 ”。 他们也许会说“你需要我们的产品来管理和组织利用大规模的数据,只是想想繁杂大量的维护动态数据集带来的麻烦就使人们头疼“。此外海量数据的另外一个价值是它可以帮助企业在适当的时机作出正确决策。 从历史上看,数据分析软件面对当今的海量数据已显得力不从心,这种局面正在悄然转变。新的海量数据分析引擎已经出现。如Apache 的Hadoop、LexisNexis 的HPCC 系统和1010data(托管、海量数据分析的平台供应商)的以云计算为基础的分析服务。 101data 的高级副总裁 Tim Negris 表示海量数据的收集以及存放和利用海量数据实际上完全是两回事。在做任何事前需要大量(准备数据)的工作是...