Hive技术VIP免费

下载本文档

阅读 56
下载 30
格式 pptx
大小 3.76 MB
约45页
2024-10-23 发布于江苏
收藏
评论
点赞(0)
海报
举报

1/45页

2/45页

3/45页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/45

文本预览下载提示常见问题

Hive介绍研发技术分享21Hive简介22结构与功能介绍43适用场景114部署与简单操作32目录5问题指南42Hive简介3Hive起源于Facebook，它使得针对Hadoop进行SQL查询成为可能，从而非程序员也可以方便地使用。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务运行。4Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据。同时，这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。Hive是一种以SQL风格进行任何大小数据分析的工具，其特点是采取类似关系数据库的SQL命令。其特点是通过SQL处理Hadoop的大数据，数据规模可以伸缩扩展到100PB+，数据形式可以是结构或非结构数据。5目录1Hive简介22结构与功能介绍43适用场景114部署与简单操作325问题指南426Hive的技术架构Hive系统元数据存储(Metastore)驱动(Driver)查询编译器(QueryCompiler)执行引擎(ExecutionEngine)服务器(HiveServer)客户端组件可扩展接口部分7服务端组件Driver组件：该组件包括Complier、Optimizer和Executor，它的作用是将我们写的HiveQL（类SQL）语句进行解析、编译优化，生成执行计划，然后调用底层的mapreduce计算框架。Metastore组件：元数据服务组件，这个组件存储hive的元数据，hive的元数据存储在关系数据库里，hive支持的关系数据库有derby、mysql。元数据对于hive十分重要，因此hive支持把metastore服务独立出来，安装到远程的服务器集群里，从而解耦hive服务和metastore服务，保证hive运行的健壮性，这个方面的知识，我会在后面的metastore小节里做详细的讲解。Thrift服务：thrift是facebook开发的一个软件框架，它用来进行可扩展且跨语言的服务的开发，hive集成了该服务，能让不同的编程语言调用hive的接口。8客户端组件CLI：commandlineinterface，命令行接口。Thrift客户端：上面的架构图里没有写上Thrift客户端，但是hive架构的许多客户端接口是建立在thrift客户端之上，包括JDBC和ODBC接口。WEBGUI：hive客户端提供了一种通过网页的方式访问hive所提供的服务。这个接口对应hive的hwi组件（hivewebinterface），使用前要启动hwi服务。9Hive执行流程101Hive简介22结构与功能介绍43适用场景114部署与简单操作13目录5问题指南2211适用场景业务场景非结构化数据的的离线分析统计。场景技术特点为超大数据集设计的计算、扩展能力。支持SQLlike查询语言。多表的join操作。支持非结构化数据的查询、计算。提供对数据存取的编程接口，支持jdbc、odbc。首先，Hive已经用类SQL的语法封装了MapReduce过程，这个封装过程就是MapReduce的标准化的过程。我们在做业务或者工具时，会针对场景用逻辑封装，这是第二层封装是在Hive之上的封装。在第二层封装时，我们要尽可能多的屏蔽Hive的细节，让接口单一化，低少灵活性，再次精简HQL的语法结构。只满足我们的系统要求，专用的接口。在使用二次封装的接口时，我们已经可以不用知道Hive是什么,更不用知道Hadoop是什么。我们只需要知道，SQL查询(SQL92标准)，怎么写效率高，怎么写可以完成业务需要就可以了。构建标准化的MapReduce开发过程12在客户端启动一个作业。向JobTracker请求一个JobID。将运行作业所需要的资源文件复制到HDFS上，包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件夹名为该作业的JobID。JAR文件默认会有10个副mapred.submit.replication属性控制，输入划分信息告诉了JobTracker应该为这个作业启动多少个map任务等信息。MapReduce流程分析13JobTracker节点JobTracker接收到作业后，将其放在一个作业队列里，等待作业调度器对其进行调度（这里是不是很像微机中的进程调度呢，呵呵），当作...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

Hive技术

Hive介绍研发技术分享21Hive简介22结构与功能介绍43适用场景114部署与简单操作32目录5问题指南42Hive简介3Hive起源于Facebook，它使得针对Hadoop进行SQL查询成为可能，从而非程序员也可以方便地使用

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务运行

4Hive是建立在Hadoop上的数据仓库基础构架

它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制

Hive定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据

同时，这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作

Hive是一种以SQL风格进行任何大小数据分析的工具，其特点是采取类似关系数据库的SQL命令

其特点是通过SQL处理Hadoop的大数据，数据规模可以伸缩扩展到100PB+，数据形式可以是结构或非结构数据

5目录1Hive简介22结构与功能介绍43适用场景114部署与简单操作325问题指南426Hive的技术架构Hive系统元数据存储(Metastore)驱动(Driver)查询编译器(QueryCompiler)执行引擎(ExecutionEngine)服务器(HiveServer)客户端组件可扩展接口部分7服务端组件Driver组件：该组件包括Complier、Optimizer和Executor，它的作用是将我们写的HiveQL（类SQL）语句进行解析、编译优化，生成执行计划，然后调用底层的mapreduce计算框架

Metastore组件：元数据服务组件，这

您可能关注的文档

静心书店 + 关注: 实名认证
内容提供者

专注于各类考试试卷和真题。

收藏店铺进入空间

Hive技术VIP免费

Hive技术

您可能关注的文档

相关文档

热门下载

相关标签