电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

Facebook数据仓库揭秘之RCFile高效存储结构

Facebook数据仓库揭秘之RCFile高效存储结构_第1页
1/15
Facebook数据仓库揭秘之RCFile高效存储结构_第2页
2/15
Facebook数据仓库揭秘之RCFile高效存储结构_第3页
3/15
下载后可任意编辑Facebook 数据仓库揭秘:RCFile 高效存储结构本文介绍了 Facebook 公司数据分析系统中的 RCFile 存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce 环境下的大规模数据分析中扮演重要角色。Facebook 曾在 2024 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库 Hive。Hive 存储海量数据在 Hadoop 系统中,提供了一套类数据库的数据存储和处理机制。它采纳类 SQL 语言对数据进行自动化管理和处理,经过语句解析和转换,最终生成基于 Hadoop 的 MapReduce 任务,通过执行这些任务完成数据处理。图 1 显 示了 Hive数据仓库的系统结构。 图 1 Hive 数据仓库的系统结构基于 MapReduce 的数据仓库在超大规模数据分析中扮演了重要角色,对于典型的 Web 服 务供应商,这些分析有助于它们快速理解动态的用户行为及变化的用户需求。数据存储结构是影响数据仓库性能的关键因素之一。Hadoop 系统中常用的文件存 储格式有支持文本的TextFile 和支持二进制的 SequenceFile 等,它们都属于行存储方式。Facebook 工程师发表的RCFile: A Fast and Spaceefficient Data Placement Structure in MapReducebased Warehouse Systems 一文,介绍了一种高效的数据存储结构——RCFile(Record Columnar File),并将其应用于 Facebook 的数据仓库 Hive 中。与传统数据库的数据存储结构相比,RCFile 更有效地满足了基于 MapReduce 的 数据仓库的四个关键需求,即 Fast data loading、Fast query processing、Highly efficient storage space utilization 和Strong adaptivity to highly dynamic workload patterns。数据仓库的需求基于 Facebook 系统特征和用户数据的分析,在 MapReduce 计算环境下,数据仓库对于数据存储结构有四个关键需求。Fast data loading下载后可任意编辑对于 Facebook 的产品数据仓库而言,快速加载数据(写数据)是非常关键的。每天大约有超过 20TB 的数据上传到 Facebook 的数据仓库,由于数据加载期间网络和磁盘流量会干扰正常的查询执行,因此缩短数据加载时间是非常必要的。Fast query processing为了满足实时性的网站请求和支持高并发用户提交查询的大量读负载,查询响应时间是非常关键的,这要求底层存储结构能够随着查询数量的增加而保持高速的查询处理。Highly efficient...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

Facebook数据仓库揭秘之RCFile高效存储结构

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部