数据湖不能成为数据沼泽随着互联网、移动互联网的深入应用,企业数据量正在呈爆炸性增长,以至于很多企业都用数据湖来描述数据
这给企业的数据应用带来了极大的挑战
有业内人士分析说,如果不能很好地利用数据,那么数据湖就会变成数据沼泽
为了避免这种情况的发生,9 月 10 日 SAP 在青岛举办的SAP 创新业务平台峰会上宣布推出 SAPHANAVora
这是一项针对 Hadoop 的最新内存计算创新
SAPHANAVora 是一款全新的内存查询引擎,通过利用并延展 ApacheSpark 运行框架,在 Hadoop 上提供更丰富的交互式分析功能,从而帮助用户指定准确的业务决策,让数据访问无处不在,并简化大数据的所有权
谈到研发 SAPHANAVora 的初衷,SAP 公司副总裁、数据管理部门负责人蔡坤宏(KenTsai)回忆说,SAP 在成功推出 SAPHANA 内存数据平台,并引领了内存计算潮流之后,一直希望通过 SAPHANA 技术来强化大数据应用
这主要包括以下三个方面:第一,希望大数据系统可以理解商务语言,也就是说,将 Hadoopl 等开源架构中的非结构化数据和商业应用中的结构化数据很好地结合起来进行分析
第二,希望 Hadoop 等开源架构具有 SAPHANA 的分析能力
在蔡坤宏看来,尽管 Hadoop 推出到市场的时间并不短,但是其计算效率还不甚理想,而 SAPHANA 在软硬件结合方面总结了丰富的经验,如将信息直接传送给 CPU 从而加快计算速度
因此,让 Hadoop 拥有 SAPHANA 的分析能力意义非凡,将给用户带来高效的应用体验
第三,希望在开源架构和 SAPHANA 之间架起一座强大的桥梁,从而可以不间断地提供企业级创新
蔡坤宏认为,企业不会将所有数据搬到 SAPHANA 平台上,也不可能将所有数据搬到 Hadoop 上,因此在两者之间建立联系非常重要