1.统计编码原理──信息量和信息熵 根据香农信息论的原理,最佳的数据压缩方法的理论极限是信息熵。如果要求在编码过程中不丢失信息量,即要求保存信息熵,这种信息保持的编码又叫熵保存编码,或叫熵编码。熵编码是无失真压缩。当然在考虑人眼失真不易察觉的生理特性时,有些图像编码不严格要求熵保存,信息允许通过部分损失来换取高的数据压缩比。这种编码属于有失真数据压缩。 信息是用不确定性的量度定义的,也就是说信息被假设为由一系列的随机变量所代表,它们往往用随机出现的符号来表示。我们称输出这些符号的源为“信源”。也就是要进行研究与压缩的对象。 信息量 信息量指从 N 个相等可能事件中选出一个事件所需要的信息度量或含量,也可以说是辨别 N 个事件中特定事件过程中所需提问“是”或“否”的最小次数。 例如:从 64 个数(1~64 的整数)中选定某一个数(采用折半查找算法),提问:“是否大于32?”,则不论回答是与否,都消去半数的可能事件,如此下去,只要问 6 次这类问题,就可以从 64 个数中选定一个数,则所需的信息量是 =6(bit)。 我们现在可以换一种方式定义信息量,也就是信息论中信息量的定义。 设从 N 中选定任一个数X 的概率为P(x ),假定任选一个数的概率都相等,即P(x )=1/N,则信息量I (x )可定义为: 上式可随对数所用“底”的不同而取不同的值,因而其单位也就不同。设底取大于1的整数α ,考虑一般物理器件的二态性,通常α 取2,相应的信息量单位为比特(bit);当α =e,相应的信息量单位为奈特(Nat);当α =10,相应的信息量单位为哈特(Hart)。 显然,当随机事件 x 发生的先验概率 P(x )大时,算出的I(x )小,那么这个事件发生的可能性大,不确定性小,事件一旦发生后提供的信息量也少。必然事件的P(x )等于1, I(x )等于0,所以必然事件的消息报导,不含任何信息量;但是一件人们都没有估计到的事件(P(x )极小),一旦发生后,I(x )大,包含的信息量很大。所以随机事件的先验概率,与事件发生后所产生的信息量,有密切关系。I(x )称x 发生后的自信息量,它也是一个随机变量。 P(x )大时,算出的I(x )小 必然事件的P(x )等于1, I(x )等于0。 P(x )小时,算出的I(x )大 必然事件的P(x )等于0, I(x )等于1。 I(x )称x 发生后的自信息量,它也是一个随机变量。 信息熵 现在可以给“熵”下个定义了。信息量计算的是一个信源的某一...