❖介绍本文介绍PivotalGreenplumDatabase数据库(以下简称:Greenplum数据库,或GPDB)的最佳实践
最佳实践是指能持续产生比其他方法更好结果的方法或者技术,它来自于实战经验,并被证实了遵循这些方法可以获得可靠的预期结果
本最佳实践旨在通过利用所有可能的知识和技术为正确使用GPDB提供有效参考
本文不是在教您如何使用Greenplum数据库的功能,而是帮助您在设计、实现和使用Greenplum数据库时了解需要遵循哪些最佳实践
关于如何使用和实现具体的Greenplum数据库特性,请参考http://gpdb
pivotal
io上的Greenplum数据库帮助文档以及http://greenplum
org上的Sandbox和实践指南
本文目的不是要涵盖整个产品或者产品特性,而是概述GPDB实践中最重要的因素
本文不涉及依赖于GPDB具体特性的边缘用例,后者需要精通数据库特性和您的环境,包括SQL访问、查询执行、并发、负载和其他因素
通过掌握这些最佳实践知识,会增加GPDB集群在维护、支持、性能和可扩展性等方面的成功率
第一章最佳实践概述本部分概述了Greenplum数据库最佳实践所涉及的概念与要点
数据模型GPDB是一个基于大规模并行处理(MPP)和无共享架构的分析型数据库
这种数据库的数据模式与高度规范化的事务性SMP数据库显著不同
通过使用非规范化数据库模式,例如具有大事实表和小维度表的星型或者雪花模式,GPDB在处理MPP分析型业务时表现优异
跨表关联(JOIN)时字段使用相同的数据类型
详见数据库模式设计(后续章节)堆存储和追加优化存储(Append-Optimized,下称A0)若表和分区表需要进行迭代式的批处理或者频繁执行单个UPDATE、DELETE或INSERT操作,使用堆存储
若表和分区表需要并发执行UPDATE、D