第4章 关系数据库规范化理论 数据库设计的一个最基本的问题是怎样建立一个合理的数据库模式,使数据库系统无论是在数据存储方面,还是在数据操作方面都具有较好的性能。什么样的模型是合理的模型,什么样的模型是不合理的模型,应该通过什么标准去鉴别和采取什么方法来改进,这是在进行数据库设计之前必须明确的问题。 为使数据库设计合理可靠、简单实用,长期以来,形成了关系数据库设计理论,即规范化理论。它是根据现实世界存在的数据依赖而进行的关系模式的规范化处理,从而得到一个合理的数据库设计效果。 本章首先说明关系规范化的作用,接着引入函数依赖和范式等基本概念,然后介绍关系模式等价性判定和模式分解的方法,最后简要介绍两种数据依赖的概念。 4.1 关系规范化的作用 4.1.1问题的提出 从前面的有关章节可知,关系是一张二维表,它是涉及属性的笛卡尔积的一个子集。从笛卡尔积中选取哪些元组构成该关系,通常是由现实世界赋予该关系的元组语义来确定的。元组语义实质上是一个n目谓词(n是属性集中属性的个数)。使该n目谓词为真的笛卡尔积中的元素(或者说凡符合元组语义的元素)的全体就构成了该关系。 但由上述关系所组成的数据库还存在某些问题。为了说明的方便,我们先看一个实例。 【例 4.1】设有一个关于教学管理的关系模式R(U),其中 U由属性Sno、Sname、Ssex、Dname、Cname、Tname、Grade组成的属性集合,其中 Sno的含义为学生学号,Sname为学生姓名,Ssex为学生性别,Dname为学生所在系别,Cname为学生所选的课程名称,Tname为任课教师姓名,Grade为学生选修该门课程的成绩。若将这些信息设计成一个关系,则关系模式为: 教学(Sno,Sname,Ssex,Dname,Cname,Tname,Grade) 选定此关系的主键为(Sno,Cname)。 由该关系的部分数据(如表 4-1所示),我们不难看出,该关系存在着如下问题: 1. 数据冗余(Data Redundancy) 每一个系名对该系的学生人数乘以每个学生选修的课程门数重复存储。 每一个课程名均对选修该门课程的学生重复存储。 每一个教师都对其所教的学生重复存储。 2. 更新异常(Update Anomalies) 由于存在数据冗余,就可能导致数据更新异常,这主要表现在以下几个方面: ⑴ 插入异常(Insert Anomalies):由于主键中元素的属性值不能取空值,如果新分配来一位教师或新成立一个系,则这位教师及新系名就无法插入;如果一位教师所开的课程无人选修或一门课...