1.统计编码原理──信息量和信息熵 根据香农信息论的原理,最佳的数据压缩方法的理论极限是信息熵
如果要求在编码过程中不丢失信息量,即要求保存信息熵,这种信息保持的编码又叫熵保存编码,或叫熵编码
熵编码是无失真压缩
当然在考虑人眼失真不易察觉的生理特性时,有些图像编码不严格要求熵保存,信息允许通过部分损失来换取高的数据压缩比
这种编码属于有失真数据压缩
信息是用不确定性的量度定义的,也就是说信息被假设为由一系列的随机变量所代表,它们往往用随机出现的符号来表示
我们称输出这些符号的源为“信源”
也就是要进行研究与压缩的对象
信息量 信息量指从 N 个相等可能事件中选出一个事件所需要的信息度量或含量,也可以说是辨别 N 个事件中特定事件过程中所需提问“是”或“否”的最小次数
例如:从 64 个数(1~64 的整数)中选定某一个数(采用折半查找算法),提问:“是否大于32
”,则不论回答是与否,都消去半数的可能事件,如此下去,只要问 6 次这类问题,就可以从 64 个数中选定一个数,则所需的信息量是 =6(bit)
我们现在可以换一种方式定义信息量,也就是信息论中信息量的定义
设从 N 中选定任一个数X 的概率为P(x ),假定任选一个数的概率都相等,即P(x )=1/N,则信息量I (x )可定义为: 上式可随对数所用“底”的不同而取不同的值,因而其单位也就不同
设底取大于1的整数α ,考虑一般物理器件的二态性,通常α 取2,相应的信息量单位为比特(bit);当α =e,相应的信息量单位为奈特(Nat);当α =10,相应的信息量单位为哈特(Hart)
显然,当随机事件 x 发生的先验概率 P(x )大时,算出的I(x )小,那么这个事件发生的可能性大,不确定性小,事件一旦发生后提供的信息量也少
必然事件的P(x )等于1, I(x )等于0,所以必然事件的消息报导,