电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

HC大数据产品技术白皮书

HC大数据产品技术白皮书_第1页
1/24
HC大数据产品技术白皮书_第2页
2/24
HC大数据产品技术白皮书_第3页
3/24
H C 大 数 据 产 品 技 术 白 皮书 The latest revision on November 22, 2020H3C 大数据产品技术白皮书杭州华三通信技术有限公司2020 年 12 月目 录1H3C 大数据产品介绍1.1产品简介H3C 大数据平台采用开源社区 Apache 和 MPP 分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算存储能力。H3C 大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能,并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统帮助用户构建海量数据处理系统,发现数据的内在价值。1.2产品架构H3C 大数据平台包含 4 个部分:第一部分是运维管理,包括:安装部署、配置管理、主机管理、用户管理、服务管理、监控告警和安全管理等。第二部分是数据 ETL,即获取、转换、加载,包括:关系数据库连接 Sqoop、日志采集 Flume、ETL 工具 Kettle。第三部分是数据计算。MPP 采用分析型分布式数据库,存储高价值密度的结构化数据;Hadoop 存储非结构化/半结构化数据和低价值密度结构化数据。计算结果都存到数据仓库,数据仓库中的数据可直接用于分析和展示。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。第四部分数据服务,包括:机器学习、数据挖掘、数据检索、数据可视化、即席分析、SQL 和 API,为应用层提供服务和中间件调用。1.1.1 数据处理对于大数据管理平台,应该建立一套标准化、规范化的数据处理流程,例如:如何采集内部和外部数据、结构化和非结构化数据;如何清洗采集来的脏数据和无效数据;如何对不同来源的数据进行打通;如何对非结构化的数据进行结构化加工;如何在结构化数据的基础上进行商业建模和数据挖掘等等。大数据管理层在一条数据总线上构建了一条完整的大数据处理流水线。这条流水线从数据的采集、清洗到加工处理,把原始杂乱无章的数据加工成结构化的数据组件,供上层的大数据应用来拼装调用,让企业拥有创造数据资产的能力。1.1.2 数据分层ODS 层:数据来源于各生产系统,通过 ETL 工具对接口文件数据进行编码替换和数据清洗转换,不做关联操作。未来也可用于准实时数据查询。轻度汇总层:主题域内部基于明细层数据,进行多维度的、用户级的汇总明细数据层:主题域内部进行拆分、关联。是对 ODS 操作型数据按照...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

HC大数据产品技术白皮书

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部