数据湖不能成为数据沼泽随着互联网、移动互联网的深入应用,企业数据量正在呈爆炸性增长,以至于很多企业都用数据湖来描述数据。这给企业的数据应用带来了极大的挑战。有业内人士分析说,如果不能很好地利用数据,那么数据湖就会变成数据沼泽。为了避免这种情况的发生,9 月 10 日 SAP 在青岛举办的SAP 创新业务平台峰会上宣布推出 SAPHANAVora。这是一项针对 Hadoop 的最新内存计算创新。SAPHANAVora 是一款全新的内存查询引擎,通过利用并延展 ApacheSpark 运行框架,在 Hadoop 上提供更丰富的交互式分析功能,从而帮助用户指定准确的业务决策,让数据访问无处不在,并简化大数据的所有权。谈到研发 SAPHANAVora 的初衷,SAP 公司副总裁、数据管理部门负责人蔡坤宏(KenTsai)回忆说,SAP 在成功推出 SAPHANA 内存数据平台,并引领了内存计算潮流之后,一直希望通过 SAPHANA 技术来强化大数据应用。这主要包括以下三个方面:第一,希望大数据系统可以理解商务语言,也就是说,将 Hadoopl 等开源架构中的非结构化数据和商业应用中的结构化数据很好地结合起来进行分析。第二,希望 Hadoop 等开源架构具有 SAPHANA 的分析能力。在蔡坤宏看来,尽管 Hadoop 推出到市场的时间并不短,但是其计算效率还不甚理想,而 SAPHANA 在软硬件结合方面总结了丰富的经验,如将信息直接传送给 CPU 从而加快计算速度。因此,让 Hadoop 拥有 SAPHANA 的分析能力意义非凡,将给用户带来高效的应用体验。第三,希望在开源架构和 SAPHANA 之间架起一座强大的桥梁,从而可以不间断地提供企业级创新。蔡坤宏认为,企业不会将所有数据搬到 SAPHANA 平台上,也不可能将所有数据搬到 Hadoop 上,因此在两者之间建立联系非常重要。这三个愿景,促使 SAP 开发了 SAPHANAVora。SAPHANAVora 不仅能够将 SAP 在内存计算上的创新运用到无处不在的数据上,还能够在 Hadoop 生态圈及其周边中提供联机分析处理(OLAP)方法。蔡坤宏介绍,SAPHANAVora 的价值主要在三个方面:第一,将来自企业系统和 Hadoop 的数据湖进行完整的数据洞察和分析,支持准确的业务决策。这是因为SAPHANAVora 用商业语义解读 Hadoop 数据,企业可以对商业活动形成更加完整的认识,从而做出更科学的商业决策。第二,让数据访问无处不在,支持数据科学的新发现。SAPHANAVora 可以在减少不必要的数据移动的情况下执行新查询,访问同样的数据,并支...